論文の概要: Efficient Reasoning via Thought Compression for Language Segmentation
- arxiv url: http://arxiv.org/abs/2604.02040v1
- Date: Thu, 02 Apr 2026 13:45:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.826583
- Title: Efficient Reasoning via Thought Compression for Language Segmentation
- Title(参考訳): 言語セグメンテーションのための思考圧縮による効率的な推論
- Authors: Qing Zhou, Shiyu Zhang, Yuyu Jia, Junyu Gao, Weiping Ni, Junzheng Wu, Qi Wang,
- Abstract要約: CoT推論は言語誘導セグメンテーションにおける大規模マルチモーダルモデルの性能を大幅に向上させた。
WISEは、テキスト思考の原則によって導かれる効率的な推論のための新しいパラダイムであり、学習のために1回、スピードのために1回、テキスト思考を2回実施する。
我々は、WISEが58.3 cIoUでReasonSegベンチマークで最先端のゼロショット性能を実現し、平均推論長を112から23トークンにほぼ短縮することを示した。
- 参考スコア(独自算出の注目度): 28.138192925569317
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Chain-of-thought (CoT) reasoning has significantly improved the performance of large multimodal models in language-guided segmentation, yet its prohibitive computational cost, stemming from generating verbose rationales, limits real-world applicability. We introduce WISE (Wisdom from Internal Self-Exploration), a novel paradigm for efficient reasoning guided by the principle of \textit{thinking twice -- once for learning, once for speed}. WISE trains a model to generate a structured sequence: a concise rationale, the final answer, and then a detailed explanation. By placing the concise rationale first, our method leverages autoregressive conditioning to enforce that the concise rationale acts as a sufficient summary for generating the detailed explanation. This structure is reinforced by a self-distillation objective that jointly rewards semantic fidelity and conciseness, compelling the model to internalize its detailed reasoning into a compact form. At inference, the detailed explanation is omitted. To address the resulting conditional distribution shift, our inference strategy, WISE-S, employs a simple prompting technique that injects a brevity-focused instruction into the user's query. This final adjustment facilitates the robust activation of the learned concise policy, unlocking the full benefits of our framework. Extensive experiments show that WISE-S achieves state-of-the-art zero-shot performance on the ReasonSeg benchmark with 58.3 cIoU, while reducing the average reasoning length by nearly \textbf{5$\times$} -- from 112 to just 23 tokens. Code is available at \href{https://github.com/mrazhou/WISE}{WISE}.
- Abstract(参考訳): CoT推論は、言語誘導セグメンテーションにおける大規模マルチモーダルモデルの性能を大幅に向上させたが、その禁忌な計算コストは、冗長な合理性の生成から生まれ、現実の応用性を制限している。
WISE(Wisdom from Internal Self-Exploration)は,「学習のために2回 - 1回 - 学習するために1回 - 学習するために1回 - という原則で導かれる,効率的な推論のための新しいパラダイムである。
WISEはモデルに、簡潔な合理性、最終的な答え、そして詳細な説明を生成するように訓練する。
提案手法は,まず,自己回帰的条件付けを利用して,簡潔な論理が詳細な説明を生成するのに十分な要約として機能することを強制する。
この構造は、意味的忠実さと簡潔さを共同で報酬する自己蒸留目的によって強化され、モデルにその詳細な推論をコンパクトな形式に内部化するよう促す。
推論では詳細な説明は省略される。
得られた条件分布シフトに対処するため,我々の推論戦略であるWISE-Sでは,ユーザのクエリに簡潔な指示を注入するシンプルなプロンプト技術を採用している。
この最終調整は、学習した簡潔なポリシーの堅牢な活性化を促進し、我々のフレームワークのすべての利点を解放する。
大規模な実験により、WISE-SはReasonSegベンチマークで58.3 cIoUで最先端のゼロショット性能を達成し、平均推論長を約112から23トークンに短縮した。
コードは \href{https://github.com/mrazhou/WISE}{WISE} で公開されている。
関連論文リスト
- PLUME: Latent Reasoning Based Universal Multimodal Embedding [52.35354073629127]
ユニバーサルマルチモーダル埋め込み(UME)は、異種入力を単一のモデルで共有検索空間にマッピングする。
最近のアプローチでは、埋め込みを抽出する前に明確なチェーン・オブ・シント(CoT)論理を生成することにより、UMEを改善している。
PLUMEは,言語化されたCoTを連続的潜伏状態の短時間の自己回帰ロールアウトに置き換えることで,UMEを進化させる潜在的推論フレームワークである。
論文 参考訳(メタデータ) (2026-04-02T14:04:53Z) - SPOT: Span-level Pause-of-Thought for Efficient and Interpretable Latent Reasoning in Large Language Models [15.95627037350657]
CoT (Explicit Chain-of-Thought) 計算はトークンレベルのトレースを内部化することによって高い推論コストを発生させる。
固定応答テンプレートを強制せずに、明示的なCoTをコンパクトなポーズトークンに圧縮するフレキシブルなフレームワークであるSPOTを提案する。
推論ベンチマークの実験では、SPOTは生成したトークンを37.5%削減しながら、平均2.3ポイントの精度を向上している。
論文 参考訳(メタデータ) (2026-03-06T12:34:27Z) - Accordion-Thinking: Self-Regulated Step Summaries for Efficient and Readable LLM Reasoning [62.680551162054975]
我々はLLMが動的要約によって推論ステップの粒度を自己制御することを学ぶエンドツーエンドのフレームワークを紹介した。
高い効率のFoldモードと徹底的なUnfoldモードの精度ギャップを徐々に狭めていくという重要な知見を見出し,この能力をさらにインセンティブ化するために強化学習を適用した。
私たちのAccordion-Thinkerは、学習した自己圧縮により、LLMは依存性トークンのオーバーヘッドを最小限に抑えながら複雑な推論タスクに取り組むことができることを示した。
論文 参考訳(メタデータ) (2026-02-03T08:34:20Z) - Focused Chain-of-Thought: Efficient LLM Reasoning via Structured Input Information [41.10866361182172]
Focused Chain-of-Thought (F-CoT) は、推論プロセスから情報抽出を分離する。
算術語問題では、F-CoTは標準ゼロショットCoTに匹敵する精度を維持しながら、生成されたトークンを2~3倍削減する。
論文 参考訳(メタデータ) (2025-11-27T07:31:52Z) - In-Token Rationality Optimization: Towards Accurate and Concise LLM Reasoning via Self-Feedback [38.915062716409686]
InTROはトークンレベルの探索と,正確かつ簡潔な推論のための自己フィードバックを可能にする,新たなフレームワークである。
InTROは他のベースラインを一貫して上回り、ベースモデルと比較して解の精度を最大20%向上させる。
その思考の連鎖は明らかに簡潔であり、冗長性が低下している。
論文 参考訳(メタデータ) (2025-11-13T01:47:06Z) - Efficient Reasoning via Thought-Training and Thought-Free Inference [26.7513102215969]
textbf3TF (textbfThought-textbfTraining and textbfThought-textbfFree inference) は,短時間の視点で効率的な推論を行うフレームワークである。
まず、推論モードと非推論モードの両方で動作可能なハイブリッドモデルをトレーニングし、さらにCoTアノテートデータでトレーニングし、構造化推論の内部化を行う。
圧縮ベースのアプローチとは異なり、3TFは非共振出力の推論品質を改善し、モデルを可能にする。
論文 参考訳(メタデータ) (2025-11-05T12:20:45Z) - Fast Thinking for Large Language Models [67.7238685892317]
我々は、訓練中にのみ簡潔なCoTスケッチを使用して個別戦略事前のコードブックを学習するフレームワークであるLatent Codebooks for Fast Thinkingを紹介した。
推論では、コードブックから抽出した少数の連続的思考スイッチのモデル条件を1パスにすることで、明確な推論トークンを生成することなく、戦略レベルのガイダンスを可能にする。
論文 参考訳(メタデータ) (2025-09-28T04:19:48Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。