論文の概要: Mull-Tokens: Modality-Agnostic Latent Thinking
- arxiv url: http://arxiv.org/abs/2512.10941v1
- Date: Thu, 11 Dec 2025 18:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.56676
- Title: Mull-Tokens: Modality-Agnostic Latent Thinking
- Title(参考訳): Mull-Tokens: Modality-Agnostic Latent Thinking
- Authors: Arijit Ray, Ahmed Abdelkader, Chengzhi Mao, Bryan A. Plummer, Kate Saenko, Ranjay Krishna, Leonidas Guibas, Wen-Sheng Chu,
- Abstract要約: Mull-Tokensは、画像またはテキストのモダリティの中間情報を保持するために事前訓練された、モダリティに依存しない潜在トークンである。
我々は,Mul-Tokensがテキストのみの推論やインターリーブ画像テキスト推論を利用して,いくつかのベースラインを改善することを示した。
- 参考スコア(独自算出の注目度): 83.76982012426055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning goes beyond language; the real world requires reasoning about space, time, affordances, and much more that words alone cannot convey. Existing multimodal models exploring the potential of reasoning with images are brittle and do not scale. They rely on calling specialist tools, costly generation of images, or handcrafted reasoning data to switch between text and image thoughts. Instead, we offer a simpler alternative -- Mull-Tokens -- modality-agnostic latent tokens pre-trained to hold intermediate information in either image or text modalities to let the model think free-form towards the correct answer. We investigate best practices to train Mull-Tokens inspired by latent reasoning frameworks. We first train Mull-Tokens using supervision from interleaved text-image traces, and then fine-tune without any supervision by only using the final answers. Across four challenging spatial reasoning benchmarks involving tasks such as solving puzzles and taking different perspectives, we demonstrate that Mull-Tokens improve upon several baselines utilizing text-only reasoning or interleaved image-text reasoning, achieving a +3% average improvement and up to +16% on a puzzle solving reasoning-heavy split compared to our strongest baseline. Adding to conversations around challenges in grounding textual and visual reasoning, Mull-Tokens offers a simple solution to abstractly think in multiple modalities.
- Abstract(参考訳): 現実の世界は、空間、時間、余裕、そして言葉だけでは伝えられないものについての推論を必要とする。
画像による推論の可能性を探る既存のマルチモーダルモデルは脆く、スケールしない。
それらは、テキストとイメージの思考を切り替えるために、専門ツールの呼び出し、画像のコスト発生、手作りの推論データに依存する。
その代わりに、よりシンプルな代替手段 -- Mull-Tokens -- モダリティに依存しない潜在トークン -- が、画像またはテキストのモダリティの中間情報を保持するために事前訓練された、モデルが正しい回答に向かって自由なフォームを考えるように提供します。
我々は、潜伏する推論フレームワークに触発されたMul-Tokensを訓練するためのベストプラクティスについて検討する。
最初に、インターリーブされたテキストイメージトレースから監督を使用してMul-Tokensをトレーニングし、最終回答のみを使用することで、監督なしで微調整を行う。
パズルの解き方や視点の異なるタスクを含む4つの挑戦的空間推論ベンチマークにおいて,Mul-Tokensはテキストのみの推論やインターリーブされた画像テキスト推論を利用して,最強のベースラインと比較して,パズルの解き方と解き方で最大+16%を達成し,いくつかのベースラインを改善することを実証した。
Mull-Tokensは、テキストと視覚的推論の基盤となる課題に関する会話に加え、複数のモダリティを抽象的に考えるためのシンプルなソリューションを提供する。
関連論文リスト
- Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens [44.19323180593379]
視覚言語モデル(VLM)は多モーダル理解において優れているが、テキストのみの復号化は視覚的推論の言語化を強いる。
最近の試みでは、VLMに明示的な画像をレンダリングするように訓練されているが、重い画像生成による事前学習は、しばしば推論能力を妨げている。
本稿では,VLMデコーディングを通常のテキストと並行して遅延視覚トークンで拡張する,Mirageと呼ばれるマシンメンタルイメージフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:31Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [53.57895922042783]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。
そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:33:00Z) - Can visual language models resolve textual ambiguity with visual cues? Let visual puns tell you! [14.84123301554462]
語彙的曖昧さの解消におけるマルチモーダル入力の影響を評価するための新しいベンチマークUNPIEを提案する。
私たちのデータセットには1,000個の句が含まれており、それぞれに両方の意味を説明する画像が添付されています。
その結果,様々なソクラティック・モデルとビジュアル・ランゲージ・モデルにより,視覚的コンテキストが与えられた場合に,テキストのみのモデルよりも改善されることが示された。
論文 参考訳(メタデータ) (2024-10-01T19:32:57Z) - JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images [72.42826916932519]
生成した画像のベンチマークであるJourneyBenchをリリースし、モデルの微細なマルチモーダル推論能力を評価する。
既存のベンチマークとは異なり、JourneyBenchは特異な想像上のシナリオにおいて、きめ細かいマルチモーダル推論を必要とする。
5つのタスクにまたがる結果から、JourneyBenchは最高のモデルでも非常に難しい。
論文 参考訳(メタデータ) (2024-09-19T17:58:16Z) - Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities [30.96613796974929]
マルチモーダルな大言語モデルの視覚的推論能力を解き放つための簡単な手法を提案する。
ホワイトボード・オブ・シークレットはモデルに比喩的なホワイトボードを提供し、画像として推論ステップを引き出す。
この単純なアプローチは、4つの難しい自然言語タスクに関する最先端の結果を示す。
論文 参考訳(メタデータ) (2024-06-20T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。