論文の概要: Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning
- arxiv url: http://arxiv.org/abs/2601.14750v1
- Date: Wed, 21 Jan 2026 08:09:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.288427
- Title: Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning
- Title(参考訳): Render-of-Thought:ビジュアルレイトレント推論のための画像としてのテキスト・オブ・ワットのレンダリング
- Authors: Yifan Wang, Shiyu Li, Peiming Li, Xiaochen Yang, Yang Tang, Zheng Wei,
- Abstract要約: CoT(Chain-of-Thought)の促進により、LLM(Large Language Models)の推論能力の解放に成功した。
Render-of-Thought (RoT) は、画像にテキストステップを描画することで推論チェーンを再構築する最初のフレームワークである。
提案手法は, 明示的なCoTに比べて3~4倍のトークン圧縮と相当な推論高速化を実現する。
- 参考スコア(独自算出の注目度): 23.364264811510598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) prompting has achieved remarkable success in unlocking the reasoning capabilities of Large Language Models (LLMs). Although CoT prompting enhances reasoning, its verbosity imposes substantial computational overhead. Recent works often focus exclusively on outcome alignment and lack supervision on the intermediate reasoning process. These deficiencies obscure the analyzability of the latent reasoning chain. To address these challenges, we introduce Render-of-Thought (RoT), the first framework to reify the reasoning chain by rendering textual steps into images, making the latent rationale explicit and traceable. Specifically, we leverage the vision encoders of existing Vision Language Models (VLMs) as semantic anchors to align the vision embeddings with the textual space. This design ensures plug-and-play implementation without incurring additional pre-training overhead. Extensive experiments on mathematical and logical reasoning benchmarks demonstrate that our method achieves 3-4x token compression and substantial inference acceleration compared to explicit CoT. Furthermore, it maintains competitive performance against other methods, validating the feasibility of this paradigm. Our code is available at https://github.com/TencentBAC/RoT
- Abstract(参考訳): CoT(Chain-of-Thought)の促進により、LLM(Large Language Models)の推論能力の解放に成功した。
CoTプロンプトは推論を促進するが、冗長性はかなりの計算オーバーヘッドを課す。
最近の研究は、しばしば結果の整合性にのみ焦点を合わせ、中間的推論プロセスの監督を欠いている。
これらの欠陥は、潜伏する推論連鎖の分析可能性を明らかにしない。
これらの課題に対処するため、私たちはRender-of-Thought (RoT)を導入しました。
具体的には、既存の視覚言語モデル(VLM)の視覚エンコーダを意味アンカーとして利用し、視覚埋め込みをテキスト空間と整合させる。
この設計により、追加の事前トレーニングオーバーヘッドを発生させずに、プラグインとプレイの実装が保証される。
数理的および論理的推論ベンチマークの大規模な実験により,提案手法は明示的なCoTと比較して3-4倍のトークン圧縮と実質的な推論加速度を達成することが示された。
さらに、他の手法と競合する性能を維持し、このパラダイムの実現可能性を検証する。
私たちのコードはhttps://github.com/TencentBAC/RoTで利用可能です。
関連論文リスト
- Can Textual Reasoning Improve the Performance of MLLMs on Fine-grained Visual Classification? [18.16727716373833]
マルチモーダル大言語モデル(MLLM)は、強力な汎用能力を示すが、細粒度視覚分類(FGVC)に苦戦している。
ReFine-RFTは、高精度なフィードバックを提供しながら、アンサンブル報酬をalgと組み合わせて推論長を制約するフレームワークである。
論文 参考訳(メタデータ) (2026-01-11T17:07:47Z) - Rethinking Chain-of-Thought Reasoning for Videos [19.579424881079447]
思考の連鎖(CoT)推論は自然言語処理における複雑なタスクの解決に成功している。
最近のマルチモーダル大言語モデル(MLLM)は、このパラダイムをビデオ推論に拡張している。
経験的観察によって動機づけられた我々は、簡潔な推論と少ない視覚的トークンの組み合わせは、効果的なビデオ推論に十分である、という仮説を立てた。
論文 参考訳(メタデータ) (2025-12-10T13:05:55Z) - Monet: Reasoning in Latent Visual Space Beyond Images and Language [55.424507246294326]
視覚的推論を推し進める上で有効なパラダイムとして「画像で考える」が登場している。
既存の方法は、人間のような抽象的な視覚的思考に欠ける。
Monetは、マルチモーダルな大規模言語モデルを潜在視覚空間内で直接推論できるトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-11-26T13:46:39Z) - Think Visually, Reason Textually: Vision-Language Synergy in ARC [94.15522924153264]
ARC-AGIは、概念ルールの誘導と新しいタスクへの転送のための厳格なテストベッドである。
既存のほとんどの手法は、ARC-AGIを純粋にテキストによる推論タスクとして扱い、人間が視覚的抽象化に強く依存しているという事実を見落としている。
VLSR(Vision-Language Synergy Reasoning)とMSSC(Modality-Switch Self-Correction)の2つの相乗的戦略を導入する。
本研究は,視覚的抽象と言語的推論を一体化させることが,汎用的な人間的な知性を実現するための重要なステップであることを示唆している。
論文 参考訳(メタデータ) (2025-11-19T18:59:04Z) - CoRGI: Verified Chain-of-Thought Reasoning with Post-hoc Visual Grounding [1.6257248483123767]
textbfCoRGI(textbfChain textbffof textbfReasoning with textbfGrounded textbfInsights)は、チェーンオブ思考出力のポストホック検証により、推論信頼性を高めるフレームワークである。
論文 参考訳(メタデータ) (2025-08-01T07:17:12Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。