論文の概要: Reinforce to Learn, Elect to Reason: A Dual Paradigm for Video Reasoning
- arxiv url: http://arxiv.org/abs/2604.04379v1
- Date: Mon, 06 Apr 2026 03:01:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.073236
- Title: Reinforce to Learn, Elect to Reason: A Dual Paradigm for Video Reasoning
- Title(参考訳): Reinforce to learn,lect to Reason: a Dual Paradigm for Video Reasoning
- Authors: Songyuan Yang, Weijiang Yu, Jilin Ma, Ziyu Liu, Guijian Tang, Wenjing Yang, Huibin Tan, Nong Xiao,
- Abstract要約: Reinforce to Learn, Elect to Reason (RLER) は、信頼できる回答から証拠を得るために学習を分離する二重パラダイムである。
RLERはすべてのベンチマークで最先端を達成し、ベースモデルよりも平均6.3%改善されている。
- 参考スコア(独自算出の注目度): 17.78591587115095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video reasoning has advanced with large multimodal models (LMMs), yet their inference is often a single pass that returns an answer without verifying whether the reasoning is evidence-aligned. We introduce Reinforce to Learn, Elect to Reason (RLER), a dual paradigm that decouples learning to produce evidence from obtaining a reliable answer. In RLER-Training, we optimize the policy with group-relative reinforcement learning (RL) and 3 novel task-driven rewards: Frame-sensitive reward grounds reasoning on explicit key frames, Think-transparency reward shapes readable and parsable reasoning traces, and Anti-repetition reward boosts information density. These signals teach the model to emit structured, machine-checkable evidence and potentiate reasoning capabilities. In RLER-Inference, we apply a train-free orchestrator that generates a small set of diverse candidates, parses their answers and cited frames, scores them by evidence consistency, confidence, transparency, and non-redundancy, and then performs a robust evidence-weighted election. This closes the loop between producing and using evidence, improving reliability and interpretability without enlarging the model. We comprehensively evaluate RLER against various open-source and RL-based LMMs on 8 representative benchmarks. RLER achieves state of the art across all benchmarks and delivers an average improvement of 6.3\% over base models, while using on average 3.1 candidates per question, indicating a favorable balance between compute and quality. The results support a simple thesis: making evidence explicit during learning and electing by evidence during inference is a robust path to trustworthy video reasoning.
- Abstract(参考訳): ビデオ推論は大規模なマルチモーダルモデル(LMM)で進歩しているが、その推論はしばしば単一のパスであり、推論がエビデンスに整合しているかどうかを検証せずに答えを返す。
Reinforce to Learn, Elect to Reason (RLER) は、信頼できる回答から証拠を得るために学習を分離する二重パラダイムである。
RLER-Trainingでは、グループ相対強化学習(RL)と3つの新しいタスク駆動報酬によりポリシーを最適化する: フレーム感受性報酬は明示的なキーフレームに基づく推論、シンク透明性報酬は読みやすく解析可能な推論トレース、反繰り返し報酬は情報密度を高める。
これらの信号はモデルに構造化されたマシンチェック可能なエビデンスを出力し、強力な推論能力を与える。
RLER推論では、列車のないオーケストレータを適用して、少数の多様な候補を生成し、回答を解析し、フレームを引用し、エビデンス一貫性、信頼性、透明性、非冗長性でスコア付けし、頑健なエビデンス重みのある選挙を行う。
これは、エビデンスの生成と使用の間のループを閉じ、モデルを拡大することなく、信頼性と解釈性を改善します。
我々は,RLERをオープンソースおよびRLベースのLMMに対して8つの代表ベンチマークで総合的に評価する。
RLERはすべてのベンチマークで最先端を達成し、ベースモデルよりも平均6.3\%向上し、平均3.1の候補を用いて計算と品質のバランスが良いことを示す。
学習中にエビデンスを明確にし、推論中にエビデンスによって選択することは、信頼できるビデオ推論への堅牢な道である。
関連論文リスト
- See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs [24.90876091319589]
視覚的マルチモーダル推論のための反復的,トレーニング不要,プラグアンドプレイフレームワークを提案する。
私たちのキーとなるアイデアは、視覚的なエビデンスでテスト時の各推論ステップを監督することです。
本手法はTreeBenchを16.5%-29.5%改善し,RH-AUCを13.7%向上させる。
論文 参考訳(メタデータ) (2026-02-25T02:13:59Z) - Balancing Faithfulness and Performance in Reasoning via Multi-Listener Soft Execution [79.98699884805636]
Reasoning Execution by Multiple Listeners (REMUL) は多人数の強化学習手法である。
REMULは、推論が他の当事者に従えるかがより忠実になるという仮説に基づいている。
スピーカーは、リスナーにとって明らかな推論を生み出すことで報われます。
論文 参考訳(メタデータ) (2026-02-18T02:55:55Z) - Beyond Correctness: Learning Robust Reasoning via Transfer [51.403609251508904]
我々は単純な哲学的見解を採用するが、堅牢な推論はそれを作った心を超えて有用であるべきである。
本稿では,トランスファーブル・リワードを用いた強化学習を紹介し,トランスファーブル・リワードによるロバストネスの運用について述べる。
提案手法は,最終回答精度を向上しながらサンプリング一貫性を向上し,ほぼ少ないトレーニングステップで同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-02-09T10:41:44Z) - From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。
最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。
このようにして、RLVRRは報酬を2つの次元に分解する。
論文 参考訳(メタデータ) (2026-01-26T14:39:58Z) - GRACE: Reinforcement Learning for Grounded Response and Abstention under Contextual Evidence [9.80421132842862]
Retrieval-Augmented Generation (RAG)は、外部知識を統合してLarge Language Models (LLM)を強化する
RAGは、明確な根拠のない正しい答えを提供することと、検索された文脈が不十分な場合に製造された応答を生成するという2つの重大な欠陥に感受性がある。
本稿では,両方の欠陥を同時に軽減する強化学習フレームワークGRACEを提案する。
論文 参考訳(メタデータ) (2026-01-08T02:47:33Z) - Perceptual-Evidence Anchored Reinforced Learning for Multimodal Reasoning [29.78411369746505]
PEARLは二重ブランチの知覚推論の相乗効果であり、視覚的証拠に明示的に固定することで多モーダル推論を強化する。
PEARLはマルチモーダル推論ベンチマークにおいて、ベースラインよりも+9.7%改善し、MathVerseではGRPOよりも+6.6%向上した。
論文 参考訳(メタデータ) (2025-11-23T13:15:58Z) - Look As You Think: Unifying Reasoning and Visual Evidence Attribution for Verifiable Document RAG via Reinforcement Learning [55.232400251303794]
Look As You Think (LAT)は、モデルをトレーニングし、一貫した帰属性を持った検証可能な推論パスを生成するための強化学習フレームワークである。
LATはシングルイメージとマルチイメージの両方でバニラモデルを一貫して改善し、平均ゲインは8.23%、IoU@0.5では47.0%となる。
論文 参考訳(メタデータ) (2025-11-15T02:50:23Z) - Answer-Consistent Chain-of-thought Reinforcement Learning For Multi-modal Large Langauge Models [33.398631680508814]
本稿では,GRPOアルゴリズムを補助的整合性チェックで修正するAnswer-Consistent Reinforcement Learningを提案する。
我々は、オリジナルとポストシャッフルの両方の回答が一致して正しい場合にのみ高い報酬を与える一貫性検証報酬を設計する。
我々は、ACREを挑戦的なビデオ推論ベンチマークとマルチモーダル数学推論ベンチマークで評価し、平均2.2%と1.5%の改善を達成した。
論文 参考訳(メタデータ) (2025-10-11T08:32:52Z) - Veri-R1: Toward Precise and Faithful Claim Verification via Online Reinforcement Learning [53.05161493434908]
大規模言語モデル(LLM)によるクレーム検証は、その強力な推論能力と透過的な検証プロセスのため、近年注目を集めている。
我々は、LLMが検索エンジンと対話し、その計画、検索、推論行動を明確に形作る報酬信号を受け取ることができるオンライン強化学習フレームワークであるVeri-R1を紹介した。
実験の結果、Veri-R1は最大30%の精度で関節の精度を向上し、エビデンススコアを2倍にし、より大きなモデルを上回ることが示されている。
論文 参考訳(メタデータ) (2025-10-02T11:49:48Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。