論文の概要: ImgCoT: Compressing Long Chain of Thought into Compact Visual Tokens for Efficient Reasoning of Large Language Model
- arxiv url: http://arxiv.org/abs/2601.22730v1
- Date: Fri, 30 Jan 2026 09:06:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.337917
- Title: ImgCoT: Compressing Long Chain of Thought into Compact Visual Tokens for Efficient Reasoning of Large Language Model
- Title(参考訳): ImgCoT:大規模言語モデルの効率的な推論のためのコンパクトな視覚トークンへの思考の長鎖圧縮
- Authors: Xiaoshu Chen, Sihang Zhou, Ke Liang, Taichun Zhou, Xinwang Liu,
- Abstract要約: 大規模言語モデル (LLM) を用いた効率的な推論には, コンパクトな潜在トークンへの思考(CoT)の長い連鎖が不可欠である。
テキストCoTから画像にCoTを描画して得られる視覚CoTに置き換えるImgCoTを提案する。
これにより、言語バイアスを空間的帰納バイアスに置き換え、潜在トークンがグローバルな推論構造をよりよく捉えることができる。
- 参考スコア(独自算出の注目度): 34.90582960625524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compressing long chains of thought (CoT) into compact latent tokens is crucial for efficient reasoning with large language models (LLMs). Recent studies employ autoencoders to achieve this by reconstructing textual CoT from latent tokens, thus encoding CoT semantics. However, treating textual CoT as the reconstruction target forces latent tokens to preserve surface-level linguistic features (e.g., word choice and syntax), introducing a strong linguistic inductive bias that prioritizes linguistic form over reasoning structure and limits logical abstraction. Thus, we propose ImgCoT that replaces the reconstruction target from textual CoT to the visual CoT obtained by rendering CoT into images. This substitutes linguistic bias with spatial inductive bias, i.e., a tendency to model spatial layouts of the reasoning steps in visual CoT, enabling latent tokens to better capture global reasoning structure. Moreover, although visual latent tokens encode abstract reasoning structure, they may blur reasoning details. We thus propose a loose ImgCoT, a hybrid reasoning that augments visual latent tokens with a few key textual reasoning steps, selected based on low token log-likelihood. This design allows LLMs to retain both global reasoning structure and fine-grained reasoning details with fewer tokens than the complete CoT. Extensive experiments across multiple datasets and LLMs demonstrate the effectiveness of the two versions of ImgCoT.
- Abstract(参考訳): 長鎖の思考(CoT)をコンパクトな潜在トークンに圧縮することは、大きな言語モデル(LLM)を用いた効率的な推論に不可欠である。
近年の研究では、テキストCoTを潜在トークンから再構成し、CoTセマンティクスを符号化することで、これを実現するためにオートエンコーダを採用している。
しかし、テキストCoTを再構成対象として扱うと、潜在トークンが表層言語的特徴(例えば、単語の選択と構文)を保ち、推論構造よりも言語形式を優先し、論理的抽象化を制限する強い言語的帰納バイアスが生じる。
そこで本研究では,テキストCoTから画像にCoTを描画した視覚的CoTに置き換えるImgCoTを提案する。
これは、言語バイアスを空間帰納バイアス、すなわち視覚的CoTにおける推論ステップの空間的レイアウトをモデル化する傾向に代えて、潜在トークンがグローバルな推論構造をよりよく捉えることができる。
さらに、視覚的潜在トークンは抽象的推論構造を符号化するが、推論の詳細を曖昧にすることができる。
そこで我々は,低トークンログ類似度に基づいて選択された,いくつかの重要なテキスト推論ステップで視覚潜在トークンを増強するハイブリッド推論である,ゆるやかなImgCoTを提案する。
この設計により、LLMは完全なCoTよりも少ないトークンで、グローバルな推論構造ときめ細かい推論の詳細の両方を保持することができる。
複数のデータセットとLCMにわたる大規模な実験により、ImgCoTの2つのバージョンの有効性が示された。
関連論文リスト
- Tokenization, Fusion and Decoupling: Bridging the Granularity Mismatch Between Large Language Models and Knowledge Graphs [20.946228883628013]
我々は,効率的な全空間予測を実現するために専用エンティティトークンを使用する新しいフレームワークKGTを提案する。
まず、専用エンティティトークンのレベルで特徴表現を構築するために、特殊トークン化を導入します。
次に、事前学習された構造的特徴とテキスト的特徴を、関係誘導ゲーティング機構を介して統合された埋め込みに融合する。
論文 参考訳(メタデータ) (2026-02-26T07:20:40Z) - CoLT: Reasoning with Chain of Latent Tool Calls [31.228763375347608]
CoT(Chain-of-Thought)は、大規模言語モデル(LLM)の推論能力を高める重要な手法である。
ツールコールとして潜伏推論を実装する新しいフレームワークである「CoLT」を提案する。
論文 参考訳(メタデータ) (2026-02-04T06:12:53Z) - CoT-Seg: Rethinking Segmentation with Chain-of-Thought Reasoning and Self-Correction [50.67483317563736]
本稿では,段階的に考察し,必要な情報を検索し,結果を生成し,自己評価を行い,結果を洗練するシステムを提案する。
CoT-Segは、思考の連鎖推論と自己補正を組み合わせることで、推論セグメンテーションを再考する、トレーニング不要のフレームワークである。
論文 参考訳(メタデータ) (2026-01-24T11:41:54Z) - Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning [23.364264811510598]
CoT(Chain-of-Thought)の促進により、LLM(Large Language Models)の推論能力の解放に成功した。
Render-of-Thought (RoT) は、画像にテキストステップを描画することで推論チェーンを再構築する最初のフレームワークである。
提案手法は, 明示的なCoTに比べて3~4倍のトークン圧縮と相当な推論高速化を実現する。
論文 参考訳(メタデータ) (2026-01-21T08:09:25Z) - Reflection Pretraining Enables Token-Level Self-Correction in Biological Sequence Models [82.79223371188756]
CoT(Chain-of-Thought)は、大規模言語モデルを用いた自然言語処理において、高度なタスク解決機能を備えている。
CoTをタンパク質やRNA言語モデルのような非自然言語ドメインに適用することは、まだ不可能である。
生物シークエンスモデルではじめて事前学習を導入し、中間的推論を行えるようにした。
論文 参考訳(メタデータ) (2025-12-24T05:25:17Z) - Understanding Hardness of Vision-Language Compositionality from A Token-level Causal Lens [12.946160260124378]
対照的な言語-イメージ 事前学習は強力なクロスモーダルな一般化をもたらす。
オブジェクト、属性、関係性に対する構成的推論では、永続的に失敗する。
完全モーダル不変アライメントを実現する擬似最適テキストエンコーダの存在を示す。
論文 参考訳(メタデータ) (2025-10-30T09:41:21Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [53.57895922042783]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。
そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:33:00Z) - Efficient Reasoning with Hidden Thinking [48.96945580741641]
CoT(Chain-of-Thought)推論は、複雑な問題解決能力を改善するための強力なフレームワークになっています。
我々は,隠された潜在空間におけるCoTの推論を利用した効率的な推論フレームワークであるtextbfHeima$(隠されたラマとして)を提案する。
ハイマモデルは、ゼロショットタスクの精度を維持しつつ、より高い生成効率を達成する。
論文 参考訳(メタデータ) (2025-01-31T15:10:29Z) - Training Large Language Models to Reason in a Continuous Latent Space [71.0274000348354]
我々は、言語を超えた推論の可能性を探るため、Coconut (Chain of Continuous Thought)と呼ばれる新しいパラダイムを導入します。
この状態を単語に復号するのではなく、連続した空間に直接埋め込む次の入力としてモデルにフィードバックします。
この潜在的推論パラダイムは、継続的思考が複数の代替の次のステップをエンコードできる高度な推論パターンを可能にする。
論文 参考訳(メタデータ) (2024-12-09T18:55:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。