論文の概要: OmniRAG-Agent: Agentic Omnimodal Reasoning for Low-Resource Long Audio-Video Question Answering
- arxiv url: http://arxiv.org/abs/2602.03707v2
- Date: Wed, 04 Feb 2026 03:33:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 15:07:33.819608
- Title: OmniRAG-Agent: Agentic Omnimodal Reasoning for Low-Resource Long Audio-Video Question Answering
- Title(参考訳): OmniRAG-Agent:低音源長ビデオ質問応答のためのエージェントOmnimodal Reasoning
- Authors: Yifan Zhu, Xinyu Mu, Tao Feng, Zhonghong Ou, Yuning Gong, Haoran Luo,
- Abstract要約: OmniRAG-Agent(英語版)は、予算付きロングオーディオビデオ推論のためのエージェント・オムニモーダルQA法である。
OmniLLMは、外部の銀行から短い、関連するフレームとオーディオスニペットを取り出すことができる。
エージェントループを使用して、ターンにまたがってツールを呼び出し、検索したエビデンスをマージして複雑なクエリに応答する。
- 参考スコア(独自算出の注目度): 12.963349283282447
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Long-horizon omnimodal question answering answers questions by reasoning over text, images, audio, and video. Despite recent progress on OmniLLMs, low-resource long audio-video QA still suffers from costly dense encoding, weak fine-grained retrieval, limited proactive planning, and no clear end-to-end optimization.To address these issues, we propose OmniRAG-Agent, an agentic omnimodal QA method for budgeted long audio-video reasoning. It builds an image-audio retrieval-augmented generation module that lets an OmniLLM fetch short, relevant frames and audio snippets from external banks. Moreover, it uses an agent loop that plans, calls tools across turns, and merges retrieved evidence to answer complex queries. Furthermore, we apply group relative policy optimization to jointly improve tool use and answer quality over time. Experiments on OmniVideoBench, WorldSense, and Daily-Omni show that OmniRAG-Agent consistently outperforms prior methods under low-resource settings and achieves strong results, with ablations validating each component.
- Abstract(参考訳): テキスト、画像、オーディオ、ビデオの推論によって答える。
近年のOmniLLMの進歩にもかかわらず、低リソースのロングオーディオビデオQAは、高密度エンコーディング、低精細化検索、限定されたプロアクティブプランニング、明確なエンドツーエンド最適化に苦しめられ、これらの問題に対処するために、予算化されたロングオーディオビデオ推論のためのエージェント・オニモーダルQA手法であるOmniRAG-Agentを提案する。
OmniLLMは、外部の銀行から短い、関連するフレームとオーディオスニペットを取り出すことができる。
さらに、エージェントループを使用して、ターンを計画し、ツールを呼び出し、検索したエビデンスをマージして複雑なクエリに応答する。
さらに,グループ相対政策最適化を適用し,ツール使用率を向上し,時間とともに品質を向上する。
OmniVideoBench、WorldSense、Daily-Omniの実験では、OmniRAG-Agentは低リソース環境下での事前メソッドよりも一貫して優れており、各コンポーネントを検証している。
関連論文リスト
- OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding [23.176694412214157]
オムニアジェント(OmniAgent)は、完全音声誘導能動的知覚エージェントである。
本稿では、受動応答生成からアクティブマルチモーダル探索へのパラダイムシフトを示す。
論文 参考訳(メタデータ) (2025-12-29T17:59:05Z) - A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos [76.98722001848493]
LongShOTBenchは、長めのマルチモーダルビデオ理解のための診断ベンチマークである。
これには、オープンエンド、インテント駆動の質問、シングルターンとマルチターンの対話、マルチモーダル推論とエージェントツールの使用を必要とするタスクが含まれる。
LongShOTAgentは、前処理、検索、反復的な精細化を通じて、長いビデオを分析するエージェントシステムである。
論文 参考訳(メタデータ) (2025-12-18T18:59:27Z) - OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs [72.425061028374]
音声・視覚の相乗的理解を評価するためのベンチマークであるOmniVideoBenchを紹介する。
OmniVideoBenchは1000の高品質なQA(QA)ペアで構成され、それぞれにステップバイステップの推論トレースが付加されている。
我々はOmniVideoBenchをリリースし、より強力でより一般化可能な推論機能を持つMLLMの開発を促進する。
論文 参考訳(メタデータ) (2025-10-12T16:34:00Z) - AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding [73.60257070465377]
AdaVideoRAGは、軽量なインテント分類器を使用して、クエリ複雑性に基づいた検索に適応する新しいフレームワークである。
我々のフレームワークは、Omni-Knowledge Indexingモジュールを使用して、テキスト(キャプション、ASR、OCR)、視覚的特徴、セマンティックグラフから階層データベースを構築する。
実験では、既存のMLLMにシームレスに統合することで、長時間ビデオ理解のための効率と精度の向上が示されている。
論文 参考訳(メタデータ) (2025-06-16T15:18:15Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup [50.70494796172493]
Omni-modal Sound separation (OmniSep) は、Omni-modal クエリに基づいてクリーンなサウンドトラックを分離できる新しいフレームワークである。
トレーニング中に異なるモダリティからクエリ機能をブレンドするQuery-Mixup戦略を導入する。
我々は、クエリーが音の分離に肯定的または否定的に影響を与え、特定の音の保持や除去を容易にすることにより、この柔軟性をさらに強化する。
論文 参考訳(メタデータ) (2024-10-28T17:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。