論文の概要: Agentic Active Omni-Modal Perception for Multi-Hop Audio-Visual Reasoning
- arxiv url: http://arxiv.org/abs/2605.28192v1
- Date: Wed, 27 May 2026 09:11:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.92304
- Title: Agentic Active Omni-Modal Perception for Multi-Hop Audio-Visual Reasoning
- Title(参考訳): マルチホップ・オーディオ・ビジュアル・推論のためのエージェントアクティブオムニモーダル知覚
- Authors: Ke Xu, Yuhao Wang, Ziyang Cheng, Hongcheng Liu, Yanfeng Wang, Yu Wang,
- Abstract要約: AOP-AgentはオープンソースのOmni-LLM上に構築された効率的なエージェントフレームワークである。
MOV-BenchとOmniVideoBenchの実験では、AOP-Agentは推論性能を一貫して改善している。
- 参考スコア(独自算出の注目度): 39.54930573140777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-hop audio-visual reasoning remains challenging for Omni-LLMs, as relevant evidence is often sparse, temporally dispersed, and distributed across both audio and visual streams. Existing benchmarks provide limited investigation of this setting, typically involving only a limited number of modalities, relevant temporal segments, or reasoning steps. In this work, we introduce MOV-Bench, a benchmark containing 519 carefully curated questions that require multi-hop reasoning over temporally dispersed audio-visual evidence. Evaluations on MOV-Bench reveal that current Omni-LLMs still struggle with multi-hop cross-modal reasoning. To address this challenge, we further propose AOP-Agent, an efficient agentic framework built on open-source Omni-LLMs for active omni-modal perception. By combining a hierarchical omni-modal memory with a collaborative observe-reflect-replan loop, AOP-Agent enables open-source Omni-LLMs to perform active perception without additional training or proprietary models. Experiments on MOV-Bench and OmniVideoBench demonstrate that AOP-Agent consistently improves reasoning performance, with particularly notable gains on long videos and reasoning-intensive questions.
- Abstract(参考訳): オムニ・LLMは、関連する証拠は、しばしばスパースで、時間的に分散し、オーディオストリームとビジュアルストリームの両方に分散されるため、マルチホップオーディオ-視覚的推論は依然として困難である。
既存のベンチマークでは、この設定について限定的な調査が行われており、典型的には、限られた数のモダリティ、関連する時間セグメント、推論ステップのみを含む。
そこで本研究では,時間的に分散した音声・視覚的証拠に対するマルチホップ推論を必要とする519の注意深い質問を含むベンチマークMOV-Benchを紹介する。
MOV-Benchの評価によると、現在のOmni-LLMはマルチホップのクロスモーダル推論に苦戦している。
この課題に対処するために,オープンソースのOmni-LLM上に構築された効率的なエージェントフレームワークであるAOP-Agentを提案する。
AOP-Agentは階層的なOmni-Modalメモリと協調的なオブザーバ・リフレクト・リプラン・ループを組み合わせることで、オープンソースのOmni-LLMを、追加のトレーニングやプロプライエタリなモデルなしでアクティブな認識を可能にする。
MOV-BenchとOmniVideoBenchの実験では、AOP-Agentは推論性能を一貫して改善し、特に長いビデオや推論集約的な質問で顕著に向上している。
関連論文リスト
- LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs [68.35684758116453]
このデータセットは、リッチなオーディオ視覚ダイナミクスを備えたオープンプラットフォームからソースされた高品質なビデオで構成されている。
我々は,長期記憶,時間的局所化,きめ細かい理解,マルチモーダル知覚など,ドメイン間のOmniLLMの能力について精査した。
オープンソースモデルは一般的に35%未満の精度を達成するが、Gemini 3 Proは65%のピーク精度に達する。
論文 参考訳(メタデータ) (2026-03-19T17:58:13Z) - OmniGAIA: Towards Native Omni-Modal AI Agents [103.79729735478924]
我々は、深い推論とマルチターンツールの実行を必要とするタスクにおいて、オムニモーダルエージェントを評価するために設計されたベンチマークを導入する。
我々は,Omni-modal foundation agentであるOmniAtlasを提案する。
論文 参考訳(メタデータ) (2026-02-26T11:35:04Z) - OmniRAG-Agent: Agentic Omnimodal Reasoning for Low-Resource Long Audio-Video Question Answering [12.963349283282447]
OmniRAG-Agent(英語版)は、予算付きロングオーディオビデオ推論のためのエージェント・オムニモーダルQA法である。
OmniLLMは、外部の銀行から短い、関連するフレームとオーディオスニペットを取り出すことができる。
エージェントループを使用して、ターンにまたがってツールを呼び出し、検索したエビデンスをマージして複雑なクエリに応答する。
論文 参考訳(メタデータ) (2026-02-03T16:28:24Z) - ROMA: Real-time Omni-Multimodal Assistant with Interactive Streaming Understanding [32.72568710955575]
本稿では,実時間オムニ・マルチモーダル・アシスタントであるROMAについて述べる。
ROMAは連続的な入力を同期マルチモーダル単位として処理し、密度の高いオーディオを離散ビデオフレームと整列させて粒度のミスマッチを処理する。
オンライン意思決定では、応答開始を生成から切り離して正確なトリガーを確実にする軽量なスポークヘッドを導入する。
論文 参考訳(メタデータ) (2026-01-15T12:09:04Z) - OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding [23.176694412214157]
オムニアジェント(OmniAgent)は、完全音声誘導能動的知覚エージェントである。
本稿では、受動応答生成からアクティブマルチモーダル探索へのパラダイムシフトを示す。
論文 参考訳(メタデータ) (2025-12-29T17:59:05Z) - OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs [72.425061028374]
音声・視覚の相乗的理解を評価するためのベンチマークであるOmniVideoBenchを紹介する。
OmniVideoBenchは1000の高品質なQA(QA)ペアで構成され、それぞれにステップバイステップの推論トレースが付加されている。
我々はOmniVideoBenchをリリースし、より強力でより一般化可能な推論機能を持つMLLMの開発を促進する。
論文 参考訳(メタデータ) (2025-10-12T16:34:00Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。