論文の概要: TTE-Flash: Accelerating Reasoning-based Multimodal Representations via Think-Then-Embed Tokens
- arxiv url: http://arxiv.org/abs/2605.16638v1
- Date: Fri, 15 May 2026 21:10:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.813554
- Title: TTE-Flash: Accelerating Reasoning-based Multimodal Representations via Think-Then-Embed Tokens
- Title(参考訳): TTE-Flash:Think-Then-Embed Tokensによる推論に基づくマルチモーダル表現の高速化
- Authors: Jianpeng Cheng, Xian Wu, Jiangfan Zhang, Wentao Bao, Chaitanya Ahuja, Shlok Kumar Mishra, Hanchao Yu, Yang Gao, Fan Xia, Qi Guo, Shaodan Zhai, Xiangjun Fan, Jun Xiao,
- Abstract要約: TTE-Flash-2Bは,MMEB-v2ベンチマークにおいて,その明示的なCoTよりも優れたマルチモーダル表現モデルである。
本研究では,1)LLMバックボーンからトークンの考え方と埋め込みを抽出する方法,2)トークンを2つの依存タスクとしてトレーニングする方法,の2つの重要なアーキテクチャ設計について検討する。
- 参考スコア(独自算出の注目度): 32.700228795574255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research has demonstrated that Universal Multimodal Embedding (UME) benefits significantly from Chain-of-Thought (CoT) reasoning. In this paradigm, a generative model produces explicit reasoning traces for a multimodal query, with the final representation extracted from an <eos> embedding token attending to both the query and the reasoning. Despite its effectiveness, the computational overhead of generating explicit CoT traces is often prohibitive. In this work, we propose replacing explicit CoT with latent think tokens, which are interpreted as latent variables that can produce explicit CoT traces as observed variables. By optimizing think tokens using CoT generation loss and subsequent embedding tokens using contrastive loss, we produce high-performance, reasoning-aware representations at a constant inference cost. Our study investigates two key architectural designs: 1) how think and embeddings tokens should be extracted from the same LLM backbone. 2) how the tokens should be trained as two dependent tasks. We introduce TTE-Flash-2B, a reasoning-aware multimodal representation model that outperforms its explicit-CoT counterpart on the MMEB-v2 benchmark, while producing latent think tokens that are interpretable both textually and visually. Furthermore, zero-shot evaluation across 15 video datasets reveals scaling behavior as the number of think tokens increases, and motivating a pilot study of adaptive think budget allocation based on task requirements.
- Abstract(参考訳): 最近の研究で、ユニバーサル・マルチモーダル・エンベディング(UME)は、CoT(Chain-of-Thought)推論から大きな恩恵を受けていることが示されている。
このパラダイムでは、生成モデルは、クエリと推論の両方に対応する<eos>埋め込みトークンから最終表現を抽出して、マルチモーダルクエリの明確な推論トレースを生成する。
有効性にもかかわらず、明示的なCoTトレースを生成する計算オーバーヘッドは、しばしば禁止される。
本研究では,観測変数として明示的なCoTトレースを生成する潜在変数として解釈される潜在シンクトークンに,明示的なCoTを置き換えることを提案する。
コントラスト損失を用いたCoT生成損失と後続の埋め込みトークンを用いてシンクトークンを最適化することにより、一定の推論コストで高性能な推論対応表現を生成する。
本研究は,2つの重要な建築設計について考察する。
1) LLMのバックボーンからトークンをどう考えるか、埋め込むか。
2)トークンを2つの依存タスクとしてトレーニングする方法。
我々は、MMEB-v2ベンチマークにおいて、その明示的CoTよりも優れた推論対応マルチモーダル表現モデルであるTTE-Flash-2Bを導入し、テキストと視覚の両方で解釈可能な潜在的シンクトークンを生成した。
さらに、15の動画データセットを対象としたゼロショット評価では、シンクトークンの数が増加するにつれてスケーリングの挙動が明らかになり、タスク要求に基づいた適応的なシンク予算割り当てのパイロットスタディが動機付けられる。
関連論文リスト
- Bridging Perception and Reasoning: Token Reweighting for RLVR in Multimodal LLMs [51.60575965819268]
本稿では,この相互依存を明示的にモデル化するToken-Reweighting(ToR)戦略を提案する。
ToRは複数のマルチモーダル推論ベンチマークで一貫したパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2026-03-26T06:25:27Z) - Latent Reasoning with Supervised Thinking States [60.09942890192309]
チェーン・オブ・思想(CoT)による推論により、LLM(Large Language Models)は複雑なタスクを解決できるが、かなりの推論コストを発生させる。
我々は、入力が処理されている間に推論エムを実行する方法であるThinking Statesを提案する。
我々は、思考状態がCoTよりも強い推論行動をもたらし、トレーニング中に見られるよりも長いシーケンスへの外挿に成功したことを示す。
論文 参考訳(メタデータ) (2026-02-09T07:12:41Z) - ImgCoT: Compressing Long Chain of Thought into Compact Visual Tokens for Efficient Reasoning of Large Language Model [34.90582960625524]
大規模言語モデル (LLM) を用いた効率的な推論には, コンパクトな潜在トークンへの思考(CoT)の長い連鎖が不可欠である。
テキストCoTから画像にCoTを描画して得られる視覚CoTに置き換えるImgCoTを提案する。
これにより、言語バイアスを空間的帰納バイアスに置き換え、潜在トークンがグローバルな推論構造をよりよく捉えることができる。
論文 参考訳(メタデータ) (2026-01-30T09:06:45Z) - FrugalPrompt: Reducing Contextual Overhead in Large Language Models via Token Attribution [3.4666771782038652]
大規模言語モデル(LLM)は、その恒星の性能の大部分を入力コンテキストの拡大に負っているが、そのような冗長性は金銭的コスト、炭素フットプリント、推論時間の遅延を膨らませている。
本稿では,LLMのための新しいプロンプト圧縮フレームワークであるFrugalPromptを紹介する。
我々は,4つのNLPタスク(感性分析,コモンセンスQA,要約,数学的推論)にまたがるアプローチを評価する。
論文 参考訳(メタデータ) (2025-10-18T10:22:13Z) - MARCOS: Deep Thinking by Markov Chain of Continuous Thoughts [82.46857666702924]
大規模言語モデル(LLM)における推論のための新しいパラダイムを提案する。
自己回帰的にトークンを生成する代わりに、連続的で高次元の「思考」のマルコフ連鎖として推論をモデル化する。
MARCOSはトークンベースのCoTに匹敵する性能を初めて達成し、GSM8Kでは4.7%、推論では15.7倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-09-29T16:44:22Z) - ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。
トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-24T15:47:49Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [53.57895922042783]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。
そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。