論文の概要: AMUSE: Audio-Visual Benchmark and Alignment Framework for Agentic Multi-Speaker Understanding
- arxiv url: http://arxiv.org/abs/2512.16250v1
- Date: Thu, 18 Dec 2025 07:01:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.961105
- Title: AMUSE: Audio-Visual Benchmark and Alignment Framework for Agentic Multi-Speaker Understanding
- Title(参考訳): AMUSE:エージェントマルチスピーカー理解のためのオーディオビジュアルベンチマークとアライメントフレームワーク
- Authors: Sanjoy Chowdhury, Karren D. Yang, Xudong Liu, Fartash Faghri, Pavan Kumar Anasosalu Vasu, Oncel Tuzel, Dinesh Manocha, Chun-Liang Li, Raviteja Vemulapalli,
- Abstract要約: 最近の大規模言語モデル(MLLM)は、強い認識を示すが、多話者、対話中心の設定に苦戦している。
本質的にエージェント的なタスクを中心に設計されたベンチマークであるAMUSEを紹介します。
我々は、報酬最適化と本質的なマルチモーダル自己評価を統合するデータ効率の高いエージェントアライメントフレームワークRAFTを提案する。
- 参考スコア(独自算出の注目度): 73.05946667683259
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent multimodal large language models (MLLMs) such as GPT-4o and Qwen3-Omni show strong perception but struggle in multi-speaker, dialogue-centric settings that demand agentic reasoning tracking who speaks, maintaining roles, and grounding events across time. These scenarios are central to multimodal audio-video understanding, where models must jointly reason over audio and visual streams in applications such as conversational video assistants and meeting analytics. We introduce AMUSE, a benchmark designed around tasks that are inherently agentic, requiring models to decompose complex audio-visual interactions into planning, grounding, and reflection steps. It evaluates MLLMs across three modes zero-shot, guided, and agentic and six task families, including spatio-temporal speaker grounding and multimodal dialogue summarization. Across all modes, current models exhibit weak multi-speaker reasoning and inconsistent behavior under both non-agentic and agentic evaluation. Motivated by the inherently agentic nature of these tasks and recent advances in LLM agents, we propose RAFT, a data-efficient agentic alignment framework that integrates reward optimization with intrinsic multimodal self-evaluation as reward and selective parameter adaptation for data and parameter efficient updates. Using RAFT, we achieve up to 39.52\% relative improvement in accuracy on our benchmark. Together, AMUSE and RAFT provide a practical platform for examining agentic reasoning in multimodal models and improving their capabilities.
- Abstract(参考訳): GPT-4o や Qwen3-Omni のような近年のマルチモーダルな大規模言語モデル (MLLM) は、強い認識を示すが、エージェントによる推論の追跡、役割の維持、時間の経過とともにイベントの接地を要求するマルチスピーカー、対話中心の設定に苦慮している。
これらのシナリオはマルチモーダルな音声-ビデオ理解の中心であり、会話型ビデオアシスタントや会議分析といったアプリケーションにおいて、モデルがオーディオとビジュアルストリームを共同で理にかなっている必要がある。
AMUSEは本質的にエージェント的なタスクを中心に設計されたベンチマークで、複雑なオーディオと視覚のインタラクションを計画、グラウンド、リフレクションステップに分解する必要がある。
MLLMは、時空間話者の接地や多モーダル対話の要約を含む、ゼロショット、ガイド、エージェント、および6つのタスクファミリーの3つのモードで評価する。
全てのモードにおいて、現在のモデルは、非エージェント的評価とエージェント的評価の両方の下で弱いマルチスピーカー推論と一貫性のない振る舞いを示す。
これらのタスクの本質的にのエージェント的性質と近年のLLMエージェントの進歩によって動機づけられたRAFTは、データとパラメータの効率的な更新のためのパラメータ適応と、本質的なマルチモーダル自己評価と、報酬最適化を統合したデータ効率のエージェント的アライメントフレームワークである。
RAFTを用いてベンチマークの精度を39.52倍に向上させる。
AMUSEとRAFTは、マルチモーダルモデルにおけるエージェント推論を検証し、それらの能力を改善するための実用的なプラットフォームを提供する。
関連論文リスト
- MADIAVE: Multi-Agent Debate for Implicit Attribute Value Extraction [52.89860691282002]
インプシット属性値抽出(AVE)は、電子商取引における商品の正確な表現に不可欠である。
マルチモーダル大言語モデル(MLLM)の進歩にもかかわらず、多次元データの複雑さのため暗黙のAVEは依然として困難である。
我々は,複数のMLLMエージェントを用いて推論を反復的に洗練するマルチエージェント討論フレームワークであるtextscmodelnameを紹介する。
論文 参考訳(メタデータ) (2025-10-07T06:27:42Z) - ContextualLVLM-Agent: A Holistic Framework for Multi-Turn Visually-Grounded Dialogue and Complex Instruction Following [0.2999888908665658]
MMDR-Bench(Multi-Modal Dialogue Reasoning Benchmark)は,300の複雑なマルチターン対話シナリオからなる新しいデータセットである。
また,既存のLVLMを高度な推論と命令追従機能で拡張する包括的フレームワークであるCoLVLM Agent(Contextual LVLM Agent)を提案する。
MMDR-Benchを用いた実験により,CoLVLM Agentは高い性能を示し,平均評価スコアは4.03。
論文 参考訳(メタデータ) (2025-08-21T02:09:02Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - Can a Single Model Master Both Multi-turn Conversations and Tool Use? CoALM: A Unified Conversational Agentic Language Model [8.604654904400027]
対話型エージェント言語モデル(Conversational Agentic Language Model)を導入する。
CoALM-ITを用いて、上位ドメイン固有モデルを上回る3つのモデル、CoALM 8B、CoALM 70B、CoALM 405Bを訓練する。
論文 参考訳(メタデータ) (2025-02-12T22:18:34Z) - ChatterBox: Multi-round Multimodal Referring and Grounding [108.9673313949746]
この目的のために,新しいベンチマークと効率的な視覚言語モデルを提案する。
提案したChatterBoxは、2ブランチアーキテクチャを使って視覚と言語タスクを協調的に処理する。
実験の結果、ChatterBoxはMRGの既存のモデルよりも定量的にも質的にも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-24T09:02:00Z) - Application of frozen large-scale models to multimodal task-oriented
dialogue [0.0]
既存のLarge Language Models ENnhanced to See Framework(LENS Framework)を使用して、マルチモーダルタスク指向対話の実現可能性をテストする。
LENS Frameworkは、追加のトレーニングや事前訓練されたモデルの固定パラメータなしでコンピュータビジョンタスクを解く方法として提案されている。
論文 参考訳(メタデータ) (2023-10-02T01:42:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。