論文の概要: Sign Spotting Disambiguation using Large Language Models
- arxiv url: http://arxiv.org/abs/2507.03703v1
- Date: Fri, 04 Jul 2025 16:38:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.842632
- Title: Sign Spotting Disambiguation using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたサインスポッティングの曖昧化
- Authors: JianHe Low, Ozge Mercanoglu Sincan, Richard Bowden,
- Abstract要約: 本稿では,Large Language Models(LLMs)を統合して,符号スポッティング品質を大幅に向上させる,学習自由フレームワークを提案する。
提案手法は,グローバル・テンポラル・ハンド形状の特徴を抽出し,その特徴を大規模手話辞書と照合する。
この辞書ベースのマッチングは本質的に、モデルの再訓練を必要とせず、より優れた語彙の柔軟性を提供する。
- 参考スコア(独自算出の注目度): 29.79050316749927
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sign spotting, the task of identifying and localizing individual signs within continuous sign language video, plays a pivotal role in scaling dataset annotations and addressing the severe data scarcity issue in sign language translation. While automatic sign spotting holds great promise for enabling frame-level supervision at scale, it grapples with challenges such as vocabulary inflexibility and ambiguity inherent in continuous sign streams. Hence, we introduce a novel, training-free framework that integrates Large Language Models (LLMs) to significantly enhance sign spotting quality. Our approach extracts global spatio-temporal and hand shape features, which are then matched against a large-scale sign dictionary using dynamic time warping and cosine similarity. This dictionary-based matching inherently offers superior vocabulary flexibility without requiring model retraining. To mitigate noise and ambiguity from the matching process, an LLM performs context-aware gloss disambiguation via beam search, notably without fine-tuning. Extensive experiments on both synthetic and real-world sign language datasets demonstrate our method's superior accuracy and sentence fluency compared to traditional approaches, highlighting the potential of LLMs in advancing sign spotting.
- Abstract(参考訳): 署名スポッティング(Sign spotting)は、連続手話ビデオ内の個々のサインを識別し、ローカライズするタスクであり、データセットのアノテーションをスケールし、手話翻訳における深刻なデータ不足問題に対処する上で、重要な役割を果たす。
自動サインスポッティングは、大規模なフレームレベルの監視を可能にするための大きな約束であるが、連続的な手話ストリームに固有の語彙の柔軟性や曖昧さといった課題に悩まされる。
そこで我々は,Large Language Models (LLMs) を統合して,符号スポッティング品質を大幅に向上させる,新しい学習自由フレームワークを提案する。
提案手法は時空間と手形状のグローバルな特徴を抽出し,動的時間ワープとコサイン類似性を用いて大規模手話辞書と照合する。
この辞書ベースのマッチングは本質的に、モデルの再訓練を必要とせず、より優れた語彙の柔軟性を提供する。
LLMは、マッチングプロセスからノイズやあいまいさを軽減するため、特に微調整をせずにビームサーチによる文脈認識光沢曖昧化を行う。
合成手話データセットと実世界の手話データセットの広範な実験は、従来の手法と比較して、我々の手法の精度と文の流速が優れていることを証明し、手話スポッティングの進行におけるLLMの可能性を強調した。
関連論文リスト
- Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。
テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。
How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文 参考訳(メタデータ) (2024-07-04T13:53:50Z) - A Spatio-Temporal Representation Learning as an Alternative to Traditional Glosses in Sign Language Translation and Production [9.065171626657818]
本稿では,手話翻訳(SLT)と手話生成言語(SLP)におけるグロスの使用に関する課題について述べる。
テンポラリな手話をキャプチャするフレームワークUniGloR(UniGloR)を導入する。
キーポイントに基づく設定実験により、UniGloRは従来のSLT法やSLP法よりも性能が優れているか、一致していることが示された。
論文 参考訳(メタデータ) (2024-07-03T07:12:36Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by
Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。
マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。
従来の方法と比較して最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-01-22T11:04:55Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - Signing at Scale: Learning to Co-Articulate Signs for Large-Scale
Photo-Realistic Sign Language Production [43.45785951443149]
手話は視覚言語であり、語彙は話し言葉と同じくらい豊かである。
現在の深層学習に基づく手話生成(SLP)モデルでは、アンダーアーティキュレートされたスケルトンポーズシーケンスが生成される。
我々は,辞書記号間の協調処理を学習することで,大規模SLPに取り組む。
また,ポーズ条件付き人間の合成モデルであるSignGANを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:51:38Z) - Modeling Intensification for Sign Language Generation: A Computational
Approach [13.57903290481737]
エンドツーエンドの手話生成モデルは手話の韻律を正確に表現していない。
我々は、データ駆動方式で強化をモデル化することで、生成した手話における韻律を改善することを目指している。
自動メトリクスで評価すると、強化モデリングにおける我々の取り組みがより良い結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-03-18T01:13:21Z) - Watch, read and lookup: learning to spot signs from multiple supervisors [99.50956498009094]
孤立した手話のビデオが与えられた場合、我々のタスクは、連続的かつ協調的な手話ビデオで署名されたか、どこで署名されたかを特定することである。
我々は,(1)既存の粗末なラベル付き映像を見ること,(2)追加の弱スーパービジョンを提供する関連字幕を読むこと,(3)視覚手話辞書で単語を検索すること,の3つを用いて,利用可能な複数のタイプの監督手法を用いてモデルを訓練する。
これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。
論文 参考訳(メタデータ) (2020-10-08T14:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。