論文の概要: OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention
- arxiv url: http://arxiv.org/abs/2602.05847v1
- Date: Thu, 05 Feb 2026 16:35:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.041658
- Title: OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention
- Title(参考訳): OmniVideo-R1:クエリインテンションとモダリティアテンションによるオーディオ視覚推論の強化
- Authors: Zhangquan Chen, Jiale Tao, Ruihuang Li, Yihao Hu, Ruitao Chen, Zhantao Yang, Xinlei Yu, Haodong Jing, Manyuan Zhang, Shuai Shao, Biao Wang, Qinglin Lu, Ruqi Huang,
- Abstract要約: 混合モダリティ推論を改善する新しい強化フレームワークであるOmniVideo-R1を提案する。
複数のベンチマークの実験では、OmniVideo-R1が強いベースラインを一貫して上回っていることが示されている。
- 参考スコア(独自算出の注目度): 31.594799790151345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While humans perceive the world through diverse modalities that operate synergistically to support a holistic understanding of their surroundings, existing omnivideo models still face substantial challenges on audio-visual understanding tasks. In this paper, we propose OmniVideo-R1, a novel reinforced framework that improves mixed-modality reasoning. OmniVideo-R1 empowers models to "think with omnimodal cues" by two key strategies: (1) query-intensive grounding based on self-supervised learning paradigms; and (2) modality-attentive fusion built upon contrastive learning paradigms. Extensive experiments on multiple benchmarks demonstrate that OmniVideo-R1 consistently outperforms strong baselines, highlighting its effectiveness and robust generalization capabilities.
- Abstract(参考訳): 人間は、周囲の全体的理解を支援するために、シナジスティックに機能する多様なモダリティを通じて世界を知覚するが、既存の全ビデオモデルは、音声・視覚的理解タスクにおいて大きな課題に直面している。
本稿では,混合モダリティ推論を改善する新しい強化フレームワークであるOmniVideo-R1を提案する。
OmniVideo-R1は、(1)自己教師付き学習パラダイムに基づくクエリ集約的な基盤化、(2)対照的な学習パラダイムに基づいて構築されたモダリティ適応融合である。
複数のベンチマークに関する大規模な実験は、OmniVideo-R1が一貫して強力なベースラインを上回り、その有効性と堅牢な一般化能力を強調していることを示している。
関連論文リスト
- OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding [23.176694412214157]
オムニアジェント(OmniAgent)は、完全音声誘導能動的知覚エージェントである。
本稿では、受動応答生成からアクティブマルチモーダル探索へのパラダイムシフトを示す。
論文 参考訳(メタデータ) (2025-12-29T17:59:05Z) - UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation [61.98887854225878]
私たちは、世界対応のビデオ生成のための統合フレームワークUnityVideoを紹介します。
提案手法は,(1)異種学習パラダイムを統一するための動的ノイズ化,(2)文脈内学習者によるモダリティ・スイッチャーの2つのコアコンポーネントを特徴とする。
私たちは、UnityVideoが優れたビデオ品質、一貫性、物理世界の制約との整合性を改善することを実証した。
論文 参考訳(メタデータ) (2025-12-08T18:59:01Z) - ViSS-R1: Self-Supervised Reinforcement Video Reasoning [84.1180294023835]
本稿では,新しい自己教師付き強化学習GRPOアルゴリズム(Pretext-GRPO)を標準R1パイプライン内に導入する。
また、プリテキストタスクに基づく自己教師型学習をMLLMのR1ポストトレーニングパラダイムに直接統合するViSS-R1フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-17T07:00:42Z) - OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs [72.425061028374]
音声・視覚の相乗的理解を評価するためのベンチマークであるOmniVideoBenchを紹介する。
OmniVideoBenchは1000の高品質なQA(QA)ペアで構成され、それぞれにステップバイステップの推論トレースが付加されている。
我々はOmniVideoBenchをリリースし、より強力でより一般化可能な推論機能を持つMLLMの開発を促進する。
論文 参考訳(メタデータ) (2025-10-12T16:34:00Z) - OmniDPO: A Preference Optimization Framework to Address Omni-Modal Hallucination [32.43796002503023]
Omni-modal large language model (OLLM) における幻覚を軽減するために設計された好み調整フレームワークであるOmniDPOを提案する。
両課題に対処することにより、OmniDPOはマルチモーダルグラウンドを効果的に改善し、幻覚を減少させる。
論文 参考訳(メタデータ) (2025-08-31T07:19:32Z) - Omni-R1: Reinforcement Learning for Omnimodal Reasoning via Two-System Collaboration [50.38965090742822]
長いきめの細かいビデオオーディオ推論ときめ細かいピクセルは、全方位モデルに矛盾する要求を課す。
我々は,このトレードオフを2システムアーキテクチャで解決する:グローバル推論システムは,情報を選択し,空間的コストでタスクを書き換える一方,詳細理解システムはピクセルレベルのグラウンド化を行う。
最適ホライゾンの選択と改革は曖昧で監督が難しいため、強化学習(RL)問題として定式化し、グループ相対政策に基づくエンドツーエンドのRLフレームワークであるOmni-R1を提示する。
論文 参考訳(メタデータ) (2025-05-26T17:34:06Z) - EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning [108.73513190593232]
MLLM(Multimodal large language model)は、テキスト、視覚、音声にまたがる高度な認識を持つが、構造化されたクロスモーダル推論に苦慮する。
MLLMにおけるそのような推論を強化する強化学習フレームワークであるEchoInk-R1を紹介する。
論文 参考訳(メタデータ) (2025-05-07T17:59:49Z) - OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video Contexts [46.77966058862399]
我々は,OmniLLMs用に最適化された総合マルチモーダルインタラクションベンチマークであるOmniMMIを紹介する。
本稿では,マルチモーダル・マルチプレクサリング・モデリング(M4)を提案する。
論文 参考訳(メタデータ) (2025-03-29T02:46:58Z) - video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model [33.70837005629285]
一般的なビデオ理解タスク用に設計された,初のオープンソース推論拡張型音声視覚LLMである video-SALMONN-o1 を提案する。
我々は,ステップバイステップのソリューションを用いて,音声視覚問題に挑戦する推論集約型データセットを開発した。
また、RivaBenchは、最初の推論集約型ビデオ理解ベンチマークであり、4000以上の高品質で専門家による質問応答ペアを備えている。
論文 参考訳(メタデータ) (2025-02-17T13:07:40Z) - OmnixR: Evaluating Omni-modality Language Models on Reasoning across Modalities [124.05360767047539]
我々は、SoTA Omni-modality Language Modelsをベンチマークするために設計された評価スイートであるOmnixRを紹介する。
OLMはテキスト、ビジョン、オーディオなどの複数のモードを統合し、ユニークな課題を提示する。
実験の結果,OmnixR問題に対処するためには,複数のモダリティからの情報を統合する必要があることがわかった。
論文 参考訳(メタデータ) (2024-10-16T04:29:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。