Fugu-MT 論文翻訳(概要): AViLA: Asynchronous Vision-Language Agent for Streaming Multimodal Data Interaction

論文の概要: AViLA: Asynchronous Vision-Language Agent for Streaming Multimodal Data Interaction

arxiv url: http://arxiv.org/abs/2506.18472v1
Date: Mon, 23 Jun 2025 10:11:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:36.929339
Title: AViLA: Asynchronous Vision-Language Agent for Streaming Multimodal Data Interaction
Title（参考訳）: AViLA:マルチモーダルデータインタラクションのストリーミングのための非同期ビジョンランゲージエージェント
Authors: Gengyuan Zhang, Tanveer Hannan, Hermine Kleiner, Beste Aydemir, Xinyu Xie, Jian Lan, Thomas Seidl, Volker Tresp, Jindong Gu,
Abstract要約: 本稿では、アドホックなクエリを処理し、タイムアウェアなレスポンスを提供する、ストリーミングデータインタラクションのための視覚言語エージェントであるAViLAを紹介する。実験の結果,既存のモデルでは適切なタイミングで応答できない場合が多く,AViLAでは時間的認識の精度が著しく向上することがわかった。
参考スコア（独自算出の注目度）: 27.982280356250605
License: http://creativecommons.org/licenses/by/4.0/
Abstract: An ideal vision-language agent serves as a bridge between the human users and their surrounding physical world in real-world applications like autonomous driving and embodied agents, and proactively provides accurate and timely responses given user intents. An intriguing challenge arises when agents interact with the world as a dynamic data stream and ad-hoc queries from users: supporting knowledge for queries, namely evidence, usually appears asynchronously with the arrival time of queries, and agents need to ground their responses in historical data, present observations, and even future streams. We frame this challenge as Query-Evidence Asynchrony, where user queries and their supporting evidence typically arrive asynchronously in the streaming setting. This setting requires not only strong reasoning capabilities but also the ability to retain past observations and respond to queries with temporal awareness. In this paper, we introduce a diagnostic benchmark that evaluates Multimodal Large Language Models (MLLMs) on their ability to handle interaction with streaming data. Further, we present AViLA, Asynchronous Video-Language Agent for streaming data interaction that can handle ad-hoc queries and give time-aware responses. For this purpose, AViLA consists of three key modules: comprehensive memory retention, evidence identification, and evidence-grounded trigger, that are designed to maintain a general-purpose memory and respond readily and timely to queries. Our experiments show that existing models often fail to respond at appropriate times, while AViLA significantly improves both accuracy and temporal awareness. Our code and dataset will be publicly available.
Abstract（参考訳）: 理想的視覚言語エージェントは、自律運転や具体化エージェントのような現実世界のアプリケーションにおいて、人間のユーザと周囲の物理的世界の間の橋渡しとして機能し、ユーザの意図に応じて正確でタイムリーな応答を積極的に提供する。エージェントが動的データストリームやユーザからのアドホックなクエリとして世界と対話する場合、興味深い課題が発生する。クエリの知識、すなわちエビデンスのサポートは、クエリの到着時刻と非同期に表示される。私たちはこの課題をQuery-Evidence Asynchronyとして捉えています。この設定は、強い推論能力だけでなく、過去の観察を維持し、時間的認識のあるクエリに応答する能力も必要です。本稿では,マルチモーダル大言語モデル(MLLM)を,ストリーミングデータとのインタラクションを扱う能力に基づいて評価する診断ベンチマークを提案する。さらに、アドホックなクエリを処理し、タイムアウェアなレスポンスを提供する、ストリーミングデータインタラクションのための非同期ビデオランゲージエージェントであるAViLAを提案する。この目的のために、AViLAは3つの主要なモジュールで構成されている: 包括的なメモリ保持、エビデンス識別、およびエビデンス基底トリガ。実験の結果,既存のモデルでは適切なタイミングで応答できない場合が多く,AViLAでは時間的認識の精度が著しく向上することがわかった。コードとデータセットは公開されます。

関連論文リスト

Reading Between the Timelines: RAG for Answering Diachronic Questions [8.969698902720799]
我々は、時間論理を注入するためにRAGパイプラインを根本的に再設計する新しいフレームワークを提案する。提案手法は回答精度を大幅に向上し,標準RAG実装を13%から27%上回る結果となった。この研究はRAGシステムに対する検証された経路を提供し、複雑な現実世界の質問に必要とされるニュアンス付き進化分析を行うことができる。
論文参考訳（メタデータ） (2025-07-21T05:19:41Z)
Box-QAymo: Box-Referring VQA Dataset for Autonomous Driving [27.39309272688527]
解釈可能なコミュニケーションは安全で信頼性の高い自動運転に不可欠である。現在の視覚言語モデル(VLM)は、しばしば理想化された仮定の下で動作し、現実世界のシナリオにおけるユーザの意図を捉えるのに苦労する。 Box-QAymoは、ユーザの指定したオブジェクトに対する空間的および時間的推論において、堅牢性と微妙なVLMを評価するために設計された、ボックス参照データセットとベンチマークである。
論文参考訳（メタデータ） (2025-07-01T07:40:16Z)
CLEAR-KGQA: Clarification-Enhanced Ambiguity Resolution for Knowledge Graph Question Answering [13.624962763072899]
KGQAシステムは通常、ユーザクエリは曖昧であると仮定するが、これは現実世界のアプリケーションではめったに行われない仮定である。本稿では,対話的明確化を通じて,エンティティのあいまいさ(類似した名前を持つエンティティの区別など)と意図のあいまいさ(ユーザクエリの異なる解釈を明確にするなど)を動的に扱う新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-13T17:34:35Z)
Everything Can Be Described in Words: A Simple Unified Multi-Modal Framework with Semantic and Temporal Alignment [0.0]
大規模言語モデルのための構造化テキストとして視覚と聴覚の入力を統一するフレームワークであるUMaTを提案する。最新技術であるLong Video Question Answeringの精度を大幅に向上させる。
論文参考訳（メタデータ） (2025-03-12T05:28:24Z)
InfoQuest: Evaluating Multi-Turn Dialogue Agents for Open-Ended Conversations with Hidden Context [4.262907114077643]
大きな言語モデルは明示的な指示に従う点で優れているが、曖昧さや不完全なユーザリクエストに悩まされることが多い。オープンエンドのユーザリクエストにおいて、対話エージェントが隠れコンテキストをどのように扱うかを評価するために設計されたベンチマークであるInfoQuestを紹介する。
論文参考訳（メタデータ） (2025-02-17T19:01:10Z)
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文参考訳（メタデータ） (2024-12-12T18:58:30Z)
On the Consistency of Video Large Language Models in Temporal Comprehension [57.985769348320616]
ビデオ大言語モデル(Video-LLMs)は、時間的に言語クエリを解析し、ビデオモーメントを検索することができる。予測整合性 - 時間的根拠の堅牢性と信頼性を示す重要な指標である。
論文参考訳（メタデータ） (2024-11-20T00:47:17Z)
Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [92.5712549836791]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文参考訳（メタデータ） (2024-11-05T09:27:21Z)
Beyond Prompts: Dynamic Conversational Benchmarking of Large Language Models [0.0]
本稿では,対話エージェントを対象とした動的ベンチマークシステムを提案する。タスクをインターリーブするために定期的にコンテキストスイッチを行い、エージェントの長期記憶、継続的な学習、情報統合機能を評価する現実的なテストシナリオを構築します。
論文参考訳（メタデータ） (2024-09-30T12:01:29Z)
Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。 LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文参考訳（メタデータ） (2024-06-09T21:58:32Z)
Evaluating Very Long-Term Conversational Memory of LLM Agents [95.84027826745609]
我々は,高品質で長期的な対話を生成するための,マシン・ヒューマン・パイプラインを導入する。我々は、各エージェントに画像の共有と反応の能力を持たせる。生成した会話は、長距離一貫性のために人間のアノテーションによって検証され、編集される。
論文参考訳（メタデータ） (2024-02-27T18:42:31Z)
Building Interpretable and Reliable Open Information Retriever for New Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文参考訳（メタデータ） (2023-08-09T07:47:17Z)
RETE: Retrieval-Enhanced Temporal Event Forecasting on Unified Query Product Evolutionary Graph [18.826901341496143]
時間的イベント予測は、統合クエリ製品進化グラフにおける新しいユーザ行動予測タスクである。本稿では,新しいイベント予測フレームワークを提案する。既存手法とは違って,グラフ全体の大まかに連結されたエンティティを通じてユーザ表現を強化する手法を提案する。
論文参考訳（メタデータ） (2022-02-12T19:27:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。