論文の概要: Bridging Efficiency and Transparency: Explainable CoT Compression in Multimodal Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2602.09485v1
- Date: Tue, 10 Feb 2026 07:29:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.427096
- Title: Bridging Efficiency and Transparency: Explainable CoT Compression in Multimodal Large Reasoning Models
- Title(参考訳): ブリッジ効率と透明性:マルチモーダル大共振モデルにおける説明可能なCoT圧縮
- Authors: Yizhi Wang, Linan Yue, Min-Ling Zhang,
- Abstract要約: 思考の長い連鎖(Long CoTs)は、視覚情報を取得することで複雑なタスクに対処するマルチモーダル推論モデルに広く採用されている。
既存のアプローチは,(1)本質的なアライメントの手がかりを取り除き,視覚的テキスト推論の整合性を損なう可能性,(2)圧縮プロセスは説明可能性に欠ける,という2つの大きな課題に直面している。
強化学習により最適化された逐次決定過程として圧縮を定式化する,eXplainable Multi Language CoT である XMCC を提案する。
- 参考スコア(独自算出の注目度): 64.34737012956182
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Long chains of thought (Long CoTs) are widely employed in multimodal reasoning models to tackle complex tasks by capturing detailed visual information. However, these Long CoTs are often excessively lengthy and contain redundant reasoning steps, which can hinder inference efficiency. Compressing these long CoTs is a natural solution, yet existing approaches face two major challenges: (1) they may compromise the integrity of visual-textual reasoning by removing essential alignment cues, and (2) the compression process lacks explainability, making it difficult to discern which information is critical. To address these problems, we propose XMCC, an eXplainable Multimodal CoT Compressor that formulates compression as a sequential decision-making process optimized via reinforcement learning. XMCC can effectively shorten reasoning trajectories while preserving key reasoning steps and answer correctness, and simultaneously generates natural-language explanations for its compression decisions. Extensive experiments on representative multimodal reasoning benchmarks demonstrate that XMCC not only reduces reasoning length but also provides explainable explanations, validating its effectiveness.
- Abstract(参考訳): 思考の長い連鎖(Long CoTs)は、複雑なタスクに対処するマルチモーダル推論モデルにおいて、詳細な視覚情報をキャプチャすることで広く採用されている。
しかしながら、これらのLong CoTは、しばしば過度に長大であり、余分な推論ステップを含んでいるため、推論効率を阻害する可能性がある。
これらの長いCoTを圧縮することは自然な解決策であるが、既存のアプローチでは、(1)本質的なアライメントの手がかりを取り除き視覚的テキスト推論の整合性を損なう可能性があること、(2)圧縮プロセスは説明可能性に欠けており、どの情報が重要かを識別することが難しいこと、の2つの大きな課題に直面している。
これらの問題に対処するため、強化学習により最適化された逐次決定過程として圧縮を定式化するeXplainable Multimodal CoT CompressorであるXMCCを提案する。
XMCCは、重要な推論ステップを保ちながら推論軌跡を効果的に短縮し、その圧縮決定のために自然言語による説明を同時に生成する。
代表的マルチモーダル推論ベンチマークに関する大規模な実験は、XMCCが推論長を減少させるだけでなく、説明可能な説明を提供し、その有効性を検証していることを示している。
関連論文リスト
- DeepCompress: A Dual Reward Strategy for Dynamically Exploring and Compressing Reasoning Chains [56.708381920156256]
大規模推論モデル(LRM)は印象的な能力を示してきたが、単純な問題を過度に考えることや複雑な問題を過小評価することといった認知的非効率に悩まされている。
本稿では, LRMの精度と効率を両立させる新しいフレームワークである textbfDeepCompress を紹介する。
論文 参考訳(メタデータ) (2025-10-31T12:13:11Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - Efficient Long CoT Reasoning in Small Language Models [26.579760423359673]
小さな言語モデル(SLM)を直接トレーニングして、長いチェーン・オブ・シークレット(CoT)推論ステップを創出することは困難である。
提案手法では, 不要なステップを長いCoTで実行し, 有効かつ有用なCoTトレーニングデータをキュレートするために, SLM自体の法則を用いる。
論文 参考訳(メタデータ) (2025-05-24T00:22:52Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning [1.0416697066889342]
そこで本研究では,手動による指導を必要とせずに,推論モデルによる最適なCoT長の学習を可能にする,簡易かつ効果的な強化学習手法を提案する。
ShorterBetterは、ドメイン内およびドメイン外推論タスクの出力長を50%-80%削減する。
我々の推論トレース分析は、不要な反復、過剰な自己検証、代替品の過剰探索を減らし、ショーターベッターが推論トレースの構造を洗練することを示している。
論文 参考訳(メタデータ) (2025-04-30T07:04:19Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。
完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。
セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T06:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。