論文の概要: SignAgent: Agentic LLMs for Linguistically-Grounded Sign Language Annotation and Dataset Curation
- arxiv url: http://arxiv.org/abs/2603.19059v1
- Date: Thu, 19 Mar 2026 15:52:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.241948
- Title: SignAgent: Agentic LLMs for Linguistically-Grounded Sign Language Annotation and Dataset Curation
- Title(参考訳): SignAgent: 言語処理による手話アノテーションとデータセットのキュレーションのためのエージェントLLM
- Authors: Oliver Cory, Ozge Mercanoglu Sincan, Richard Bowden,
- Abstract要約: SignAgentは、スケーラブルで言語に根ざした手話(SL)アノテーションとデータセットキュレーションのための新しいエージェントフレームワークである。
我々のエージェント的アプローチは,大規模かつ言語学的に認識されたデータアノテーションとキュレーションに対して高い性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 20.300369465395786
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces SignAgent, a novel agentic framework that utilises Large Language Models (LLMs) for scalable, linguistically-grounded Sign Language (SL) annotation and dataset curation. Traditional computational methods for SLs often operate at the gloss level, overlooking crucial linguistic nuances, while manual linguistic annotation remains a significant bottleneck, proving too slow and expensive for the creation of large-scale, phonologically-aware datasets. SignAgent addresses these challenges through SignAgent Orchestrator, a reasoning LLM that coordinates a suite of linguistic tools, and SignGraph, a knowledge-grounded LLM that provides lexical and linguistic grounding. We evaluate our framework on two downstream annotation tasks. First, on Pseudo-gloss Annotation, where the agent performs constrained assignment, using multi-modal evidence to extract and order suitable gloss labels for signed sequences. Second, on ID Glossing, where the agent detects and refines visual clusters by reasoning over both visual similarity and phonological overlap to correctly identify and group lexical sign variants. Our results demonstrate that our agentic approach achieves strong performance for large-scale, linguistically-aware data annotation and curation.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)を利用した新たなエージェントフレームワークであるSignAgentについて紹介する。
SLの伝統的な計算手法は、しばしばグロスレベルで動作し、重要な言語的ニュアンスを見渡す一方で、手動の言語アノテーションは大きなボトルネックであり、大規模で音韻学的に認識されたデータセットを作成するには遅すぎて費用がかからない。
SignAgentは、言語ツールのスイートをコーディネートする論理的LLMであるSignAgent Orchestratorと、語彙的および言語的基盤を提供する知識基盤のLLMであるSignGraphを通じて、これらの課題に対処する。
下流の2つのアノテーションタスクでフレームワークを評価する。
まず、Pseudo-gloss Annotationでは、エージェントが制約付き代入を行い、マルチモーダルなエビデンスを使用して署名されたシーケンスに対して適切なグロスラベルを抽出し、注文する。
第二に、ID Glossingでは、エージェントが視覚的類似性と音韻的重複の両方を推論して視覚的クラスタを検出し、洗練し、語彙記号の変種を正しく識別し、グループ化する。
我々のエージェント的アプローチは,大規模かつ言語学的に認識されたデータアノテーションとキュレーションに対して高い性能を発揮することを示す。
関連論文リスト
- AgenticTagger: Structured Item Representation for Recommendation with LLM Agents [58.12004213978182]
AgenticTagger は LLM をクエリして,項目をテキスト記述子のシーケンスで表現するフレームワークである。
アイテムコーパス内の語彙を効果的かつ効率的に基底化するために,多エージェント反射機構を設計する。
公開データとプライベートデータの実験では、AgenticTaggerがさまざまなレコメンデーションシナリオに一貫した改善をもたらしている。
論文 参考訳(メタデータ) (2026-02-05T18:01:37Z) - Lost in Translation, Found in Embeddings: Sign Language Translation and Alignment [84.39962912136525]
我々は手話翻訳(SLT)と手話字幕アライメント(SSA)を実行する手話理解モデルを開発する。
i)人間のキーポイントと唇領域の画像から手動と非手動のキューをキャプチャする軽量な視覚バックボーン,(ii)連続的な視覚特徴を単語レベルの埋め込みに集約するスライディングパーシーバーマッピングネットワーク,(iii)SLTとSSAを協調的に最適化するマルチタスクスケーラブルなトレーニング戦略である。
論文 参考訳(メタデータ) (2025-12-08T21:05:46Z) - Sign Spotting Disambiguation using Large Language Models [29.79050316749927]
本稿では,Large Language Models(LLMs)を統合して,符号スポッティング品質を大幅に向上させる,学習自由フレームワークを提案する。
提案手法は,グローバル・テンポラル・ハンド形状の特徴を抽出し,その特徴を大規模手話辞書と照合する。
この辞書ベースのマッチングは本質的に、モデルの再訓練を必要とせず、より優れた語彙の柔軟性を提供する。
論文 参考訳(メタデータ) (2025-07-04T16:38:09Z) - Bridging Sign and Spoken Languages: Pseudo Gloss Generation for Sign Language Translation [48.20483623444857]
手話翻訳は、手話動画を音声テキストにマッピングすることを目的としている。
一般的なアプローチは、中間表現としてのグロスアノテーションに依存している。
そこで我々は,人間に注釈付けされたグルースを不要とした光沢のない擬似グルース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T12:19:55Z) - A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。