論文の概要: Omni-R1: Reinforcement Learning for Omnimodal Reasoning via Two-System Collaboration
- arxiv url: http://arxiv.org/abs/2505.20256v1
- Date: Mon, 26 May 2025 17:34:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:20.352927
- Title: Omni-R1: Reinforcement Learning for Omnimodal Reasoning via Two-System Collaboration
- Title(参考訳): Omni-R1: 2系統協調によるOmnimodal Reasoningのための強化学習
- Authors: Hao Zhong, Muzhi Zhu, Zongze Du, Zheng Huang, Canyu Zhao, Mingyu Liu, Wen Wang, Hao Chen, Chunhua Shen,
- Abstract要約: 長いきめの細かいビデオオーディオ推論ときめ細かいピクセルは、全方位モデルに矛盾する要求を課す。
我々は,このトレードオフを2システムアーキテクチャで解決する:グローバル推論システムは,情報を選択し,空間的コストでタスクを書き換える一方,詳細理解システムはピクセルレベルのグラウンド化を行う。
最適ホライゾンの選択と改革は曖昧で監督が難しいため、強化学習(RL)問題として定式化し、グループ相対政策に基づくエンドツーエンドのRLフレームワークであるOmni-R1を提示する。
- 参考スコア(独自算出の注目度): 50.38965090742822
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Long-horizon video-audio reasoning and fine-grained pixel understanding impose conflicting requirements on omnimodal models: dense temporal coverage demands many low-resolution frames, whereas precise grounding calls for high-resolution inputs. We tackle this trade-off with a two-system architecture: a Global Reasoning System selects informative keyframes and rewrites the task at low spatial cost, while a Detail Understanding System performs pixel-level grounding on the selected high-resolution snippets. Because ``optimal'' keyframe selection and reformulation are ambiguous and hard to supervise, we formulate them as a reinforcement learning (RL) problem and present Omni-R1, an end-to-end RL framework built on Group Relative Policy Optimization. Omni-R1 trains the Global Reasoning System through hierarchical rewards obtained via online collaboration with the Detail Understanding System, requiring only one epoch of RL on small task splits. Experiments on two challenging benchmarks, namely Referring Audio-Visual Segmentation (RefAVS) and Reasoning Video Object Segmentation (REVOS), show that Omni-R1 not only surpasses strong supervised baselines but also outperforms specialized state-of-the-art models, while substantially improving out-of-domain generalization and mitigating multimodal hallucination. Our results demonstrate the first successful application of RL to large-scale omnimodal reasoning and highlight a scalable path toward universally foundation models.
- Abstract(参考訳): ロングホライズンビデオオーディオ推論と微粒化ピクセル理解は、一様モデルに矛盾する要求を課す: 密集時間被覆は多くの低解像度フレームを必要とするが、高解像度入力に対する正確な基底呼び出しは、高解像度のフレームを必要とする。
グローバル推論システムは情報的キーフレームを選択し,タスクを空間的コストで書き換える一方,詳細理解システムは選択した高解像度スニペットに対してピクセルレベルのグラウンド化を行う。
最適' キーフレームの選択と再編成は曖昧で監視が難しいため、強化学習(RL)問題として定式化し、グループ相対ポリシー最適化に基づいて構築されたエンドツーエンド RL フレームワークである Omni-R1 を提示する。
Omni-R1はGlobal Reasoning Systemを、Detail Understanding Systemとのオンラインコラボレーションを通じて得られる階層的な報酬によって訓練し、小さなタスク分割でRLの1エポックしか必要としない。
Referring Audio-Visual Segmentation (RefAVS) と Reasoning Video Object Segmentation (REVOS) という2つの挑戦的なベンチマークの実験では、Omni-R1は強力な教師付きベースラインを超えるだけでなく、特定の最先端モデルよりも優れており、ドメイン外の一般化とマルチモーダル幻覚の緩和を大きく改善している。
本研究は,RLの大規模一様推論への応用を初めて成功させ,普遍的な基礎モデルへの拡張性を示すものである。
関連論文リスト
- ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - DSADF: Thinking Fast and Slow for Decision Making [9.84593001541736]
RLエージェントと高速かつ直感的な意思決定のためのメモリ空間からなるシステム1と、深く解析的な推論のためのVLMによって駆動されるシステム2の2つの補完モジュールを統合するためのデュアルシステム適応決定フレームワーク(DSADF)を提案する。
論文 参考訳(メタデータ) (2025-05-13T02:58:04Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Boost, Disentangle, and Customize: A Robust System2-to-System1 Pipeline for Code Generation [58.799397354312596]
大規模言語モデル(LLM)は、様々な領域、特にシステム1タスクにおいて顕著な機能を示した。
System2-to-System1法に関する最近の研究が急増し、推論時間計算によるシステム2の推論知識が探索された。
本稿では,システム2タスクの代表的タスクであるコード生成に注目し,主な課題を2つ挙げる。
論文 参考訳(メタデータ) (2025-02-18T03:20:50Z) - ModServe: Scalable and Resource-Efficient Large Multimodal Model Serving [19.388562622309838]
大規模なマルチモーダルモデル(LMM)は、画像、ビデオ、音声をテキストを超えて理解する能力を示す。
本稿では,6つの代表的なオープンソースモデルに対して,デコーダのみとクロスアテンションという,2つの著名なLMMアーキテクチャを包括的に解析する。
本稿では,モジュール型LMMサービスシステムであるModServeを提案する。
論文 参考訳(メタデータ) (2025-02-02T22:10:40Z) - INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model [71.50973774576431]
本稿では,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。
我々はDCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点から連続的な詳細を含むことを保証する。
第2に,グローバルな特徴と局所的な特徴の相互強化を可能にするDEM(Dual-perspective Enhancement Module)を導入する。
論文 参考訳(メタデータ) (2024-07-23T06:02:30Z) - Inter-slice Super-resolution of Magnetic Resonance Images by Pre-training and Self-supervised Fine-tuning [49.197385954021456]
臨床実践では、2次元磁気共鳴(MR)シーケンスが広く採用されている。個々の2次元スライスを積み重ねて3次元ボリュームを形成できるが、比較的大きなスライスススペーシングは可視化とその後の解析タスクに課題をもたらす可能性がある。
スライス間隔を低減するため,ディープラーニングに基づく超解像技術が広く研究されている。
現在のほとんどのソリューションは、教師付きトレーニングのために、かなりの数の高解像度と低解像度の画像を必要とするが、通常は現実のシナリオでは利用できない。
論文 参考訳(メタデータ) (2024-06-10T02:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。