論文の概要: Beyond Perceptual Shortcuts: Causal-Inspired Debiasing Optimization for Generalizable Video Reasoning in Lightweight MLLMs
- arxiv url: http://arxiv.org/abs/2605.01324v2
- Date: Tue, 05 May 2026 09:38:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 14:45:21.240831
- Title: Beyond Perceptual Shortcuts: Causal-Inspired Debiasing Optimization for Generalizable Video Reasoning in Lightweight MLLMs
- Title(参考訳): 知覚的ショートカットを超えて:軽量MLLMにおける一般化可能なビデオ推論のための因果的インスパイアされたデバイアス最適化
- Authors: Jingze Wu, Quan Zhang, Hongfei Suo, Zeqiang Cai, Hongbo Chen,
- Abstract要約: 本稿では,2段階のデバイアス化プロセスを通じて,軽量モデルにおけるロバスト推論を育むフレームワークを提案する。
私たちのモデルであるVideoThinker-R1は、ビデオ推論効率の新たな最先端を確立します。
- 参考スコア(独自算出の注目度): 11.567226738245175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although reinforcement learning (RL) has significantly advanced reasoning capabilities in large multimodal language models (MLLMs), its efficacy remains limited for lightweight models essential for edge deployments. To address this issue, we leverage causal analysis and experiment to reveal the underlying phenomenon of perceptual bias, demonstrating that RL-based fine-tuning compels lightweight models to preferentially adopt perceptual shortcuts induced by data biases, rather than developing genuine reasoning abilities. Motivated by this insight, we propose VideoThinker, a causal-inspired framework that cultivates robust reasoning in lightweight models through a two-stage debiasing process. First, the Bias Aware Training stage forges a dedicated "bias model" to embody these shortcut behaviors. Then, the Causal Debiasing Policy Optimization (CDPO) algorithm fine-tunes the primary model, employing an innovative repulsive objective to actively push it away from the bias model's flawed logic while simultaneously pulling it toward correct, generalizable solutions. Our model, VideoThinker-R1, establishes a new state-of-the-art in video reasoning efficiency. For same-scale comparison, requiring no Supervised Fine-Tuning (SFT) and using only 1 of the training data for RL, it surpasses VideoRFT-3B with a 3.2% average gain on widely-used benchmarks and a 7% lead on VideoMME. For cross-scale comparison, it outperforms the larger Video-UTR-7B model on multiple benchmarks, including a 2.1% gain on MVBench and a 3.8% gain on TempCompass. Code is available at https://github.com/falonss703/VideoThinker.
- Abstract(参考訳): 強化学習 (RL) は大規模マルチモーダル言語モデル (MLLM) においてかなり高度な推論能力を有するが, エッジ展開に不可欠な軽量モデルに対して有効性は依然として限られている。
この問題に対処するために、我々は因果解析と実験を利用して知覚バイアスの基本的な現象を明らかにし、RLに基づく微調整は、真の推論能力ではなく、データバイアスによって引き起こされる知覚的ショートカットを優先的に採用する軽量モデルを示す。
この知見に触発されたVideoThinkerは,2段階のデバイアス処理を通じて,軽量モデルにおけるロバスト推論を育む因果的インスパイアされたフレームワークである。
まず、バイアスアウェアトレーニングステージは、これらのショートカットの振る舞いを具現化するために、専用の「バイアスモデル」を構築します。
次に、因果脱バイアス政策最適化(CDPO)アルゴリズムが一次モデルを微調整し、革新的な反発的目的を利用してバイアスモデルの欠陥論理から積極的に切り離し、同時に正しい一般化可能な解へと引き上げる。
私たちのモデルであるVideoThinker-R1は、ビデオ推論効率の新たな最先端を確立します。
同規模の比較では、スーパーバイザード・ファインチューニング(SFT)を必要とせず、RLのトレーニングデータのうち1つしか使用せず、ビデオRFT-3Bを3.2%上回り、ビデオMMEで7%リードしている。
クロススケール比較では、MVBenchの2.1%、TempCompassの3.8%など、複数のベンチマークで大きなビデオ-UTR-7Bモデルを上回っている。
コードはhttps://github.com/falonss703/VideoThinkerで入手できる。
関連論文リスト
- CAMEL: Confidence-Gated Reflection for Reward Modeling [26.908515245229747]
CAMELは、まず軽量なシングルトークン選択決定を行う信頼度の高いリフレクションフレームワークである。
提案手法は,プレフィックス強化による強化学習を通じて学習し,そのモデルに様々な初期判定を施し,真の修正を促す。
実証的に、CAMELは82.9%の平均精度で広く使用されている3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-24T08:20:08Z) - Video Reasoning without Training [38.74334895026965]
大規模マルチモーダルモデル(LMM)を用いたビデオ推論は、高価な強化学習(RL)と冗長連鎖に依存している。
モデル出力のエントロピーを信号として使用することにより、高品質なモデルが一連のマイクロ探索とマイクロ探索を経ていることが分かる。
次に、これらの新しい理論上の洞察を使って、推論時にモデルの振舞いを直接チューニングします。
論文 参考訳(メタデータ) (2025-10-19T23:17:13Z) - Towards Flash Thinking via Decoupled Advantage Policy Optimization [11.025775055262569]
大規模共振モデル(LRM)は、教師付き微調整(SFT)と強化学習(RL)によって複雑な問題を解く際、顕著な性能を達成した。
既存のRLアルゴリズムは、過度に長い応答と過度な問題に悩まされ、推論遅延と計算消費が増大する。
本稿では,モデルに対する非効率推論を減らすために,新しいRLフレームワークDEPOを提案する。
論文 参考訳(メタデータ) (2025-10-17T07:19:20Z) - Dual-Weighted Reinforcement Learning for Generative Preference Modeling [61.443461640955796]
本稿では,2重強化学習(DWRL)を嗜好モデリングの新しいフレームワークとして提案する。
本稿では、DWRLを生成的嗜好モデル(GPM)を訓練して嗜好モデルに適用し、まず思考を生成し、それから人間の選好スコアを予測する。
その結果、DWRLは、検証可能なタスク以上の推論強化された選好学習の一般的なフレームワークとして位置づけられた。
論文 参考訳(メタデータ) (2025-10-17T02:14:24Z) - VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning [49.610569478718226]
マルチモーダル報酬モデル(RM)は、視覚生成モデルのトレーニング後を大幅に改善した。
VideoReward Thinker (VR-Thinker)は、RMに視覚的推論操作と視覚的メモリウィンドウを備えた思考とイメージのフレームワークである。
提案手法は,映像選好ベンチマークにおいて,オープンソースモデル間で最先端の精度を提供する。
論文 参考訳(メタデータ) (2025-10-12T09:29:50Z) - Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start [24.244577648817188]
アハモーメント」パターンは強化学習(RL)の創発的特性に起因することが多い
本稿では,2段階アプローチによるマルチモーダル推論の強化に関する総合的研究について述べる。
実験の結果,この組み合わせはSFTのみの手法とRLのみの手法より一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2025-05-28T13:21:38Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。