論文の概要: Think in Latent Thoughts: A New Paradigm for Gloss-Free Sign Language Translation
- arxiv url: http://arxiv.org/abs/2604.15301v2
- Date: Fri, 17 Apr 2026 07:02:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 13:38:49.4754
- Title: Think in Latent Thoughts: A New Paradigm for Gloss-Free Sign Language Translation
- Title(参考訳): 潜在思想を考える:グロースフリー手話翻訳のための新しいパラダイム
- Authors: Yiyang Jiang, Li Zhang, Xiao-Yong Wei, Li Qing,
- Abstract要約: シグナーは、しばしば文脈、空間、動きを使って、その場で意味を創造する。
単純なビデオからテキストへの変換ではなく、主にモーダルな推論タスクである、と我々は主張する。
我々は,より強いコンテキスト依存とより現実的な意味を持つ大規模光沢のないSLTデータセットを新たにリリースする。
- 参考スコア(独自算出の注目度): 13.379850049525261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many SLT systems quietly assume that brief chunks of signing map directly to spoken-language words. That assumption breaks down because signers often create meaning on the fly using context, space, and movement. We revisit SLT and argue that it is mainly a cross-modal reasoning task, not just a straightforward video-to-text conversion. We thus introduce a reasoning-driven SLT framework that uses an ordered sequence of latent thoughts as an explicit middle layer between the video and the generated text. These latent thoughts gradually extract and organize meaning over time. On top of this, we use a plan-then-ground decoding method: the model first decides what it wants to say, and then looks back at the video to find the evidence. This separation improves coherence and faithfulness. We also built and released a new large-scale gloss-free SLT dataset with stronger context dependencies and more realistic meanings. Experiments across several benchmarks show consistent gains over existing gloss-free methods. Our code and data are available at https://github.com/fletcherjiang/SignThought.
- Abstract(参考訳): 多くのSLTシステムは、音声による単語に直接署名マップの短いチャンクを仮定している。
その前提は、シグナーが文脈、空間、動きを使って、しばしばオンザフライで意味を創り出すため、破滅する。
我々はSLTを再考し、これは単なるビデオからテキストへの変換ではなく、主にモーダルな推論タスクであると主張した。
そこで我々は,ビデオと生成されたテキストの中間層として,遅延思考の順序列を用いた推論駆動型SLTフレームワークを提案する。
これらの潜在思想は徐々に意味を抽出し整理する。
モデルが最初に言いたいことを判断し、次にビデオを見返して証拠を見つけます。
この分離により、一貫性と忠実性が向上する。
また、より強いコンテキスト依存とより現実的な意味を持つ、新しい大規模グロスフリーなSLTデータセットを構築し、リリースしました。
いくつかのベンチマークによる実験では、既存の光沢のない手法よりも一貫した利得を示している。
私たちのコードとデータはhttps://github.com/fletcherjiang/SignThought.comで公開されています。
関連論文リスト
- Think, Verbalize, then Speak: Bridging Complex Thoughts and Comprehensible Speech [41.625380059502675]
Think-Verbalize-Speakは、音声配信から推論を分離するフレームワークである。
また、インクリメンタルおよび非同期の要約に基づく遅延効率の高い動詞化器ReVerTについても紹介する。
複数のベンチマークによる実験結果から,本手法は音声の自然さと簡潔さを推論に最小限の影響で向上させることが示された。
論文 参考訳(メタデータ) (2025-09-19T14:34:22Z) - STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models [131.90117151306993]
音声言語モデル(SLM)は、音声入力を受信し、音声応答を生成するように設計されている。
現在のSLMは、応答する前に、内部的に無意味な思考プロセスを実行する能力が欠けている。
未知の推論チャンクと音声応答チャンクを交互に生成する新しい手法であるStitchを提案する。
論文 参考訳(メタデータ) (2025-07-21T08:30:03Z) - Bridging Sign and Spoken Languages: Pseudo Gloss Generation for Sign Language Translation [48.20483623444857]
手話翻訳は、手話動画を音声テキストにマッピングすることを目的としている。
一般的なアプローチは、中間表現としてのグロスアノテーションに依存している。
そこで我々は,人間に注釈付けされたグルースを不要とした光沢のない擬似グルース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T12:19:55Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Frame Representation Hypothesis: Multi-Token LLM Interpretability and Concept-Guided Text Generation [6.356639602091336]
解釈可能性(Interpretability)は、大規模言語モデルの信頼を促進する上で重要な課題である。
複数単語をモデル化してLLMを解釈・制御するためのフレーム表現仮説を提案する。
これらのツールをTop-k Concept-Guided Decodingで紹介する。
論文 参考訳(メタデータ) (2024-12-10T09:25:39Z) - Training Large Language Models to Reason in a Continuous Latent Space [71.0274000348354]
我々は、言語を超えた推論の可能性を探るため、Coconut (Chain of Continuous Thought)と呼ばれる新しいパラダイムを導入します。
この状態を単語に復号するのではなく、連続した空間に直接埋め込む次の入力としてモデルにフィードバックします。
この潜在的推論パラダイムは、継続的思考が複数の代替の次のステップをエンコードできる高度な推論パターンを可能にする。
論文 参考訳(メタデータ) (2024-12-09T18:55:56Z) - Gloss-Free End-to-End Sign Language Translation [59.28829048788345]
我々はGloFE(Gloss-Free End-to-end手話翻訳フレームワーク)を設計する。
本手法は,信号の共通意味と対応する音声翻訳を利用して,光沢のない環境下でのSLTの性能を向上させる。
OpenASLやHow2Signなど,大規模データセットの最先端結果を得た。
論文 参考訳(メタデータ) (2023-05-22T09:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。