論文の概要: MuCRASP: Multimodal Chain-of-thought Reasoning aware Structured Pruning
- arxiv url: http://arxiv.org/abs/2605.25842v1
- Date: Mon, 25 May 2026 13:36:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.143689
- Title: MuCRASP: Multimodal Chain-of-thought Reasoning aware Structured Pruning
- Title(参考訳): MuCRASP: 構造化プルーニングを意識したマルチモーダル連鎖推論
- Authors: Aritra Dutta, Somak Aditya,
- Abstract要約: 視覚言語モデル(VLM)のための構造化プルーニングフレームワークを提案する。
MuCRASPは、グローバルパラメータ予算の下で、横断的なアライメントと感度を維持しながら、推論クリティカルなコンポーネントをターゲットにしている。
実験によると、MucleASPは圧縮の増加の下で推論品質を一貫して保持している。
- 参考スコア(独自算出の注目度): 6.554737064099828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) increasingly rely on chain-of-thought (CoT) reasoning to solve complex multimodal tasks, but their large parameter sizes make deployment expensive. Structured pruning offers a natural solution; however, existing methods fail to preserve CoT reasoning accuracy in VLMs. We identify two key reasons: (1) CoT consistency depends on sparse transition points (pivot tokens) in the generation trajectory, while existing pruning methods are CoT-agnostic; and (2) pruning methods designed for unimodal LLMs do not account for activation-distribution differences across visual and textual modalities. Motivated by these observations, we propose MuCRASP, a structured pruning framework that targets reasoning-critical components while preserving cross-modal alignment and accounting for layer-wise sensitivity under a global parameter budget. Experiments on four VLMs across three reasoning benchmarks show that MuCRASP consistently preserves reasoning quality under increasing compression. At 30% pruning on Qwen2.5-VL-7B, MuCRASP achieves an LLM-as-a-Judge score of 8.87 versus 7.32 for the strongest baseline on physical reasoning tasks. Furthermore, MuCRASP maintains high reasoning consistency up to 50% pruning, significantly outperforming prior pruning approaches while exhibiting lower perplexity degradation.
- Abstract(参考訳): 視覚言語モデル(VLM)は、複雑なマルチモーダルタスクを解決するためにチェーン・オブ・シント(CoT)推論にますます依存しているが、その大きなパラメータサイズは、デプロイメントを高価にする。
構造化プルーニング(Structured pruning)は自然解を提供するが、既存の手法ではVLMにおけるCoT推論の精度を保たない。
筆者らは,(1)CoTの整合性は生成経路におけるスパース遷移点(ピボットトークン)に依存するが,既存のプルーニング法はCoT非依存であり,(2)一元的LLM用に設計されたプルーニング法は,視覚的およびテキスト的モダリティ間でのアクティベーションと分配の違いを考慮しない。
これらの観測によって動機づけられたMuCRASPは,グローバルパラメータ予算の下での階層的アライメントと階層的感度の考慮を保ちながら,推論クリティカルなコンポーネントをターゲットとした構造化プルーニングフレームワークである。
3つの推論ベンチマークにおける4つのVLMの実験は、MucleASPが圧縮の増加の下で推論品質を一貫して維持していることを示している。
Qwen2.5-VL-7Bでの30%のプルーニングで、MCRASPは物理推論タスクにおける最強ベースラインに対して8.87対7.32のLSM-as-a-Judgeスコアを達成している。
さらに、MucleASPは、50%のプルーニングにおける高い推論一貫性を維持し、より低いパープレキシティ劣化を示しながら、前プルーニングアプローチよりも大幅に優れています。
関連論文リスト
- Think When Needed: Adaptive Reasoning-Driven Multimodal Embeddings with a Dual-LoRA Architecture [5.59567612070537]
Think When Needed (TWN) は適応的推論を備えた統合マルチモーダル埋め込みフレームワークである。
これに基づいてアダプティブシンク機構は、自己教師付きルーティングゲートを使用して、入力毎にチェーン・オブ・シークレット(CoT)を生成するかどうかを決定する。
MMEB-V2の78タスクでは、TWNは最先端の埋め込み品質を達成し、既存の生成方法よりもはるかに効率的である。
論文 参考訳(メタデータ) (2026-05-14T06:41:53Z) - MMEmb-R1: Reasoning-Enhanced Multimodal Embedding with Pair-Aware Selection and Adaptive Control [36.06412693943508]
適応型推論に基づくマルチモーダル埋め込みフレームワークであるMMEmb-R1を提案する。
我々は、潜在変数としての推論を定式化し、クエリターゲットアライメントに有用な推論経路を特定するためにペア認識推論選択を導入する。
MMEB-V2ベンチマーク実験により,本モデルでは4Bパラメータのみを用いて71.2のスコアを達成し,推論のオーバーヘッドと推論遅延を大幅に低減し,新たな最先端技術を確立した。
論文 参考訳(メタデータ) (2026-04-07T17:55:17Z) - Hierarchical Chain-of-Thought Prompting: Enhancing LLM Reasoning Performance and Efficiency [4.139013391483979]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が大幅に向上した。
本稿では階層的連鎖(Hi-CoT)プロンプトを導入する。
Hi-CoTは、推論プロセスを命令計画とステップバイステップ実行の交互に階層的なサブステップに分解する。
論文 参考訳(メタデータ) (2026-03-31T18:35:22Z) - Reinforcing Structured Chain-of-Thought for Video Understanding [49.3086326382764]
概要駆動強化学習(SDRL)を紹介する。
SDRLは、Supervised Fine-Tuning (SFT)の必要性を回避したシングルステージのRLフレームワークである。
提案手法は、7つの公開ビデオQAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2026-03-26T22:11:14Z) - Are Reasoning LLMs Robust to Interventions on Their Chain-of-Thought? [79.86483056611105]
推論 LLM は、答えを出す前にステップバイステップの思考連鎖を生成する。
これらの推論は、その内部で発生する破壊の痕跡をどれほど堅牢にしていますか?
一定のタイミングでモデル自身のCoTを摂動させる制御された評価フレームワークを導入する。
論文 参考訳(メタデータ) (2026-02-07T10:02:58Z) - Reinforced Efficient Reasoning via Semantically Diverse Exploration [73.41112984160992]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論の強化に有効であることが証明された。
本研究では,LLMのための意味的多様性探索,すなわちROSEによる効率的な推論手法を提案する。
本手法は,意味エントロピーに基づく分岐戦略と$varepsilon$-exploration機構を組み込んだものである。
論文 参考訳(メタデータ) (2026-01-08T15:56:44Z) - Enhancing the Outcome Reward-based RL Training of MLLMs with Self-Consistency Sampling [90.87033586963828]
マルチモーダル大言語モデル(MLLM)のステップ・バイ・ステップ推論を洗練させる手段としては,アウトカム・リワード強化学習(RL)が一般的であり,ますます重要になっている。
この問題を修正するために,自己整合サンプリング(SCS)を提案する。
Qwen2.5-VL-7B-インストラクトに基づいて、SCSは、無視できる余分な計算を伴う6つのマルチモーダルベンチマークにおいて、最大7.7ポイントの精度を向上する。
論文 参考訳(メタデータ) (2025-11-13T18:59:57Z) - Directional Reasoning Injection for Fine-Tuning MLLMs [51.53222423215055]
マルチモーダルな大言語モデル(MLLM)は急速に進歩しているが、その推論能力は強いテキストのみのモデルよりも遅れていることが多い。
このギャップを埋める既存の方法は、大規模マルチモーダル推論データや強化学習の監督された微調整に依存している。
この問題を解決するために,DRIFT(Directional Reasoning Injection for Fine-Tuning)を提案する。
論文 参考訳(メタデータ) (2025-10-16T18:06:46Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - Chain of Evidences and Evidence to Generate: Prompting for Context Grounded and Retrieval Augmented Reasoning [3.117335706912261]
チェイン・オブ・エビデンス(CoE)とエビデンス・トゥ・ジェネレーション(E2G)は2つのユニークな戦略に基づいて構築されている。
根拠のない推論の主張の代わりに、我々の革新的なアプローチは「意思決定の証拠」の力を利用する。
我々のフレームワークは、様々な知識集約的推論および生成タスクにおいて、常に顕著な結果を達成する。
論文 参考訳(メタデータ) (2024-01-11T09:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。