論文の概要: AViLA: Asynchronous Vision-Language Agent for Streaming Multimodal Data Interaction
- arxiv url: http://arxiv.org/abs/2506.18472v1
- Date: Mon, 23 Jun 2025 10:11:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.929339
- Title: AViLA: Asynchronous Vision-Language Agent for Streaming Multimodal Data Interaction
- Title(参考訳): AViLA:マルチモーダルデータインタラクションのストリーミングのための非同期ビジョンランゲージエージェント
- Authors: Gengyuan Zhang, Tanveer Hannan, Hermine Kleiner, Beste Aydemir, Xinyu Xie, Jian Lan, Thomas Seidl, Volker Tresp, Jindong Gu,
- Abstract要約: 本稿では、アドホックなクエリを処理し、タイムアウェアなレスポンスを提供する、ストリーミングデータインタラクションのための視覚言語エージェントであるAViLAを紹介する。
実験の結果,既存のモデルでは適切なタイミングで応答できない場合が多く,AViLAでは時間的認識の精度が著しく向上することがわかった。
- 参考スコア(独自算出の注目度): 27.982280356250605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An ideal vision-language agent serves as a bridge between the human users and their surrounding physical world in real-world applications like autonomous driving and embodied agents, and proactively provides accurate and timely responses given user intents. An intriguing challenge arises when agents interact with the world as a dynamic data stream and ad-hoc queries from users: supporting knowledge for queries, namely evidence, usually appears asynchronously with the arrival time of queries, and agents need to ground their responses in historical data, present observations, and even future streams. We frame this challenge as Query-Evidence Asynchrony, where user queries and their supporting evidence typically arrive asynchronously in the streaming setting. This setting requires not only strong reasoning capabilities but also the ability to retain past observations and respond to queries with temporal awareness. In this paper, we introduce a diagnostic benchmark that evaluates Multimodal Large Language Models (MLLMs) on their ability to handle interaction with streaming data. Further, we present AViLA, Asynchronous Video-Language Agent for streaming data interaction that can handle ad-hoc queries and give time-aware responses. For this purpose, AViLA consists of three key modules: comprehensive memory retention, evidence identification, and evidence-grounded trigger, that are designed to maintain a general-purpose memory and respond readily and timely to queries. Our experiments show that existing models often fail to respond at appropriate times, while AViLA significantly improves both accuracy and temporal awareness. Our code and dataset will be publicly available.
- Abstract(参考訳): 理想的視覚言語エージェントは、自律運転や具体化エージェントのような現実世界のアプリケーションにおいて、人間のユーザと周囲の物理的世界の間の橋渡しとして機能し、ユーザの意図に応じて正確でタイムリーな応答を積極的に提供する。
エージェントが動的データストリームやユーザからのアドホックなクエリとして世界と対話する場合、興味深い課題が発生する。クエリの知識、すなわちエビデンスのサポートは、クエリの到着時刻と非同期に表示される。
私たちはこの課題をQuery-Evidence Asynchronyとして捉えています。
この設定は、強い推論能力だけでなく、過去の観察を維持し、時間的認識のあるクエリに応答する能力も必要です。
本稿では,マルチモーダル大言語モデル(MLLM)を,ストリーミングデータとのインタラクションを扱う能力に基づいて評価する診断ベンチマークを提案する。
さらに、アドホックなクエリを処理し、タイムアウェアなレスポンスを提供する、ストリーミングデータインタラクションのための非同期ビデオランゲージエージェントであるAViLAを提案する。
この目的のために、AViLAは3つの主要なモジュールで構成されている: 包括的なメモリ保持、エビデンス識別、およびエビデンス基底トリガ。
実験の結果,既存のモデルでは適切なタイミングで応答できない場合が多く,AViLAでは時間的認識の精度が著しく向上することがわかった。
コードとデータセットは公開されます。
関連論文リスト
- CLEAR-KGQA: Clarification-Enhanced Ambiguity Resolution for Knowledge Graph Question Answering [13.624962763072899]
KGQAシステムは通常、ユーザクエリは曖昧であると仮定するが、これは現実世界のアプリケーションではめったに行われない仮定である。
本稿では,対話的明確化を通じて,エンティティのあいまいさ(類似した名前を持つエンティティの区別など)と意図のあいまいさ(ユーザクエリの異なる解釈を明確にするなど)を動的に扱う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-13T17:34:35Z) - Everything Can Be Described in Words: A Simple Unified Multi-Modal Framework with Semantic and Temporal Alignment [0.0]
大規模言語モデルのための構造化テキストとして視覚と聴覚の入力を統一するフレームワークであるUMaTを提案する。
最新技術であるLong Video Question Answeringの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-12T05:28:24Z) - InfoQuest: Evaluating Multi-Turn Dialogue Agents for Open-Ended Conversations with Hidden Context [4.262907114077643]
大きな言語モデルは明示的な指示に従う点で優れているが、曖昧さや不完全なユーザリクエストに悩まされることが多い。
オープンエンドのユーザリクエストにおいて、対話エージェントが隠れコンテキストをどのように扱うかを評価するために設計されたベンチマークであるInfoQuestを紹介する。
論文 参考訳(メタデータ) (2025-02-17T19:01:10Z) - InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - On the Consistency of Video Large Language Models in Temporal Comprehension [57.985769348320616]
ビデオ大言語モデル(Video-LLMs)は、時間的に言語クエリを解析し、ビデオモーメントを検索することができる。
予測整合性 - 時間的根拠の堅牢性と信頼性を示す重要な指標である。
論文 参考訳(メタデータ) (2024-11-20T00:47:17Z) - Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [92.5712549836791]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - Beyond Prompts: Dynamic Conversational Benchmarking of Large Language Models [0.0]
本稿では,対話エージェントを対象とした動的ベンチマークシステムを提案する。
タスクをインターリーブするために定期的にコンテキストスイッチを行い、エージェントの長期記憶、継続的な学習、情報統合機能を評価する現実的なテストシナリオを構築します。
論文 参考訳(メタデータ) (2024-09-30T12:01:29Z) - RETE: Retrieval-Enhanced Temporal Event Forecasting on Unified Query
Product Evolutionary Graph [18.826901341496143]
時間的イベント予測は、統合クエリ製品進化グラフにおける新しいユーザ行動予測タスクである。
本稿では,新しいイベント予測フレームワークを提案する。
既存手法とは違って,グラフ全体の大まかに連結されたエンティティを通じてユーザ表現を強化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-12T19:27:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。