論文の概要: OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding
- arxiv url: http://arxiv.org/abs/2512.23646v1
- Date: Mon, 29 Dec 2025 17:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.606948
- Title: OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding
- Title(参考訳): OmniAgent:Omnimodal Audio-Video Understandingのためのオーディオガイド型アクティブ・パーセプション・エージェント
- Authors: Keda Tao, Wenjie Du, Bohan Yu, Weiqiang Wang, Jian Liu, Huan Wang,
- Abstract要約: オムニアジェント(OmniAgent)は、完全音声誘導能動的知覚エージェントである。
本稿では、受動応答生成からアクティブマルチモーダル探索へのパラダイムシフトを示す。
- 参考スコア(独自算出の注目度): 23.176694412214157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Omnimodal large language models have made significant strides in unifying audio and visual modalities; however, they often lack the fine-grained cross-modal understanding and have difficulty with multimodal alignment. To address these limitations, we introduce OmniAgent, a fully audio-guided active perception agent that dynamically orchestrates specialized tools to achieve more fine-grained audio-visual reasoning. Unlike previous works that rely on rigid, static workflows and dense frame-captioning, this paper demonstrates a paradigm shift from passive response generation to active multimodal inquiry. OmniAgent employs dynamic planning to autonomously orchestrate tool invocation on demand, strategically concentrating perceptual attention on task-relevant cues. Central to our approach is a novel coarse-to-fine audio-guided perception paradigm, which leverages audio cues to localize temporal events and guide subsequent reasoning. Extensive empirical evaluations on three audio-video understanding benchmarks demonstrate that OmniAgent achieves state-of-the-art performance, surpassing leading open-source and proprietary models by substantial margins of 10% - 20% accuracy.
- Abstract(参考訳): オムニモーダルな大言語モデルは、音声と視覚のモダリティを統一する上で大きな進歩を遂げてきたが、細粒度のクロスモーダルな理解が欠如しており、マルチモーダルなアライメントが困難であることが多い。
これらの制約に対処するため、我々はOmniAgentを紹介した。OmniAgentは完全な音声誘導能動認識エージェントで、よりきめ細かい音声視覚推論を実現するために、専門的なツールを動的にオーケストレーションする。
静的なワークフローと高密度フレームキャプションに頼っていた従来の研究とは異なり、本研究では、受動的応答生成からアクティブマルチモーダル探索へのパラダイムシフトを示す。
OmniAgentは、動的プランニングを使用して、オンデマンドでのツール呼び出しを自律的にオーケストレーションし、タスク関連キューに対する知覚的注意を戦略的に集中させる。
我々のアプローチの中心は、時間的事象のローカライズとその後の推論の導出にオーディオキューを活用する、より粗い音声誘導知覚パラダイムである。
OmniAgentは最先端のパフォーマンスを達成し、主要なオープンソースおよびプロプライエタリなモデルを10%から20%のマージンで上回っている。
関連論文リスト
- AMUSE: Audio-Visual Benchmark and Alignment Framework for Agentic Multi-Speaker Understanding [73.05946667683259]
最近の大規模言語モデル(MLLM)は、強い認識を示すが、多話者、対話中心の設定に苦戦している。
本質的にエージェント的なタスクを中心に設計されたベンチマークであるAMUSEを紹介します。
我々は、報酬最適化と本質的なマルチモーダル自己評価を統合するデータ効率の高いエージェントアライメントフレームワークRAFTを提案する。
論文 参考訳(メタデータ) (2025-12-18T07:01:47Z) - Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound [5.591620304505415]
この研究は、AVWM (Audio-Visual World Models) のための最初の公式なフレームワークを提示する。
マルチモーダル環境シミュレーションを、部分的に観察可能な決定プロセスとして定式化し、音声・視覚的観察、きめ細かいアクション、タスク報酬を提供する。
本稿では,視覚学習と聴覚学習のバランスをとる新しいモダリティ・エキスパート・アーキテクチャを用いたオーディオ・ビジュアル・コンディショナル・トランスフォーマーを提案する。
論文 参考訳(メタデータ) (2025-11-30T13:11:56Z) - Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models [35.86252379746625]
本研究の目的は、音声・視覚大言語モデル(AV-LLM)におけるバランスの取れたマルチモーダル理解を強化することである。
現在のAV-LLMでは、オーディオとビデオの機能はデコーダで共同で処理されるのが一般的である。
Fork-Merge Decoding (FMD) は、追加のトレーニングやアーキテクチャの変更を必要としない、シンプルで効果的な推論時間戦略である。
論文 参考訳(メタデータ) (2025-05-27T08:22:56Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Baichuan-Omni-1.5 Technical Report [78.49101296394218]
Baichuan-Omni-1.5は、Omni-modalの理解能力だけでなく、エンドツーエンドのオーディオ生成機能も備えたOmni-modalモデルである。
マルチモーダルデータのための包括的データクリーニングと合成パイプラインを構築し,約500Bの高品質データを取得する。
第二に、音声トケナイザは、音声から意味情報と音響情報をキャプチャし、シームレスな統合とMLLMとの互換性の強化を可能にするように設計されている。
論文 参考訳(メタデータ) (2025-01-26T02:19:03Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - Efficient Multimodal Neural Networks for Trigger-less Voice Assistants [0.8209843760716959]
本稿では,スマートウォッチ用ニューラルネットワークを用いたマルチモーダルフュージョンシステムを提案する。
このシステムは、音声とジェスチャーデータの時間的相関をよりよく理解し、正確な呼び出しにつながる。
軽量で、スマートウォッチなどの低消費電力デバイスにデプロイ可能で、起動時間も速い。
論文 参考訳(メタデータ) (2023-05-20T02:52:02Z) - MAAS: Multi-modal Assignation for Active Speaker Detection [59.08836580733918]
本稿では,本問題のマルチモーダル性に直接対処するアクティブな話者検出手法を提案する。
実験では,単一フレームで構築した小さなグラフデータ構造により,瞬時に発生する視聴覚課題を近似できることを示した。
論文 参考訳(メタデータ) (2021-01-11T02:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。