論文の概要: EgoPro-Bench: Benchmarking Personalized Proactive Interaction in Egocentric Video Streams
- arxiv url: http://arxiv.org/abs/2605.07299v1
- Date: Fri, 08 May 2026 06:10:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.844724
- Title: EgoPro-Bench: Benchmarking Personalized Proactive Interaction in Egocentric Video Streams
- Title(参考訳): EgoPro-Bench:エゴ中心のビデオストリームにおけるパーソナライズされたプロアクティブインタラクションのベンチマーク
- Authors: Dongchuan Ran, Linyu Ou, Xueheng Li, Wenwen Tong, Chenxu Guo, Hewei Guo, Kaibing Wang, Lewei Lu,
- Abstract要約: EgoPro-Benchは、プロアクティブなインタラクション能力のトレーニングと評価のための新しいベンチマークである。
評価セットには2400本、トレーニングセットには12,000本以上のビデオが含まれている。
実験により,EgoPro-BenchはMLLMの意図理解能力を大幅に向上させることが示された。
- 参考スコア(独自算出の注目度): 12.739319690508482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Multimodal Large Language Models (MLLMs) remain primarily reactive, failing to continuously perceive environments or proactively assist users. While emerging benchmarks address proactivity, they are largely confined to alert scenarios, neglect personalized context, and fail to evaluate the precise timing of human-machine interactions (HMI).In this paper, we introduce EgoPro-Bench, a novel benchmark for training and evaluating proactive interaction capabilities based on streaming egocentric videos; it comprises 2,400 videos in the evaluation set and over 12,000 videos in the training set.Unlike previous works, EgoPro-Bench leverages simulated user profiles to generate diverse user intentions and to construct high-fidelity HMI data across 12 distinct domains.Subsequently, we propose a specialized evaluation protocol and metrics, train proactive interaction models designed for efficient reasoning and low-latency interaction on streaming video data, and conduct comprehensive evaluations.Furthermore, we introduce an interaction principle termed "short thinking, better interaction", which allocates a limited token budget prior to intent recognition, thereby enhancing interaction performance.The experiments demonstrate that EgoPro-Bench substantially enhances the intention understanding capabilities of MLLMs and enables accurate identification of appropriate timings for HMI, thereby laying a solid foundation for next-generation user-centric proactive interactive agents.
- Abstract(参考訳): 既存のMultimodal Large Language Models (MLLM) は主にリアクティブであり、環境を継続的に知覚したり、積極的にユーザを支援することができない。
新興ベンチマークはプロアクティビティに対処するが、それらは主に警告シナリオに限られており、パーソナライズされたコンテキストを無視し、ヒューマンマシンインタラクション(HMI)の正確なタイミングを評価できない。
本稿では,ストリーミング・エゴセントリック・ビデオに基づくプロアクティブ・インタラクション能力のトレーニングと評価のための新しいベンチマークであるEgoPro-Benchを紹介し,トレーニングセットにおける2,400本のビデオと,トレーニングセットにおける12,000本以上のビデオを含む。EgoPro-Benchは,シミュレーションされたユーザプロファイルを利用して,多様なユーザ意図の生成と,12の異なるドメインにわたる高忠実度HMIデータの構築を行う。また,ストリーミング・ビデオデータに対する効率的な推論と低レイテンシ・インタラクションを設計したプロアクティブ・インタラクション・モデルを提案し,包括的な評価を行う。
関連論文リスト
- MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents [54.48066948369172]
エンボディモデルが強力になるにつれ、人間は将来、職場や自宅で複数のエンボディAIエージェントと協力するようになる。
既存の課題には、ビデオ形式で個々の感覚入力を効果的に圧縮し、伝達することが含まれる。
われわれはまず,複数のエンボディエージェントから同時に収集された複数のロングホライズン・エゴセントリックなビデオを理解するという,新しい問題を正式に定義する。
論文 参考訳(メタデータ) (2026-03-10T15:48:35Z) - Proact-VL: A Proactive VideoLLM for Real-Time AI Companions [52.23988809605433]
自動評価のために選択された2つのゲームシナリオ,コメンテータとガイドを通じて,AIコンパニオンをインスタンス化する。
Proact-VLは,マルチモーダル言語モデルを人間のような環境認識とインタラクションが可能な,能動的,リアルタイムな対話エージェントに形成するフレームワークである。
論文 参考訳(メタデータ) (2026-03-03T19:02:46Z) - LifeEval: A Multimodal Benchmark for Assistive AI in Egocentric Daily Life Tasks [71.05217306468857]
LifeEvalは、リアルタイムでタスク指向の人間とAIのコラボレーションを評価するために設計されたマルチモーダルベンチマークである。
LifeEvalは、タスク指向の全体的評価、連続したファーストパーソンストリームからのエゴセントリックなリアルタイム認識、自然な対話による人間と人間の協力的な相互作用の3つの重要な側面を強調している。
論文 参考訳(メタデータ) (2026-02-28T06:05:31Z) - PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments [36.84821207878773]
マルチモーダル大言語モデル(MLLM)における視覚的推論は、主に静的で完全に観測可能な設定で研究されている。
AVR(Active Visual Reasoning)タスクを導入し、視覚的推論を部分的に観察可能で対話的な環境に拡張する。
推論と情報収集の効率性の両方を評価するために,複数ラウンドの対話型環境を特徴とするベンチマークを提案する。
論文 参考訳(メタデータ) (2025-10-24T02:59:00Z) - In the Eye of MLLM: Benchmarking Egocentric Video Intent Understanding with Gaze-Guided Prompting [12.567763863700058]
EgoGazeVQAは、エゴセントリックな視線誘導型ビデオ質問応答ベンチマークである。
実験の結果,既存のMLLMはユーザの意図を正確に解釈するのに苦労していることがわかった。
我々の視線誘導インテントプロンプト法は性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-09-09T07:11:56Z) - Perceiving and Acting in First-Person: A Dataset and Benchmark for Egocentric Human-Object-Human Interactions [110.43343503158306]
本稿では、手動支援タスクを視覚言語アクションフレームワークに組み込み、そのアシスタントは、自我中心のビジョンとコマンドに従ってインストラクターにサービスを提供する。
この設定の下で、我々は、マルチモーダルデータの11.4時間1.2Mフレームを持つ、最初の大規模人・物・人間のインタラクションデータセットであるInterVLAを達成した。
我々は,エゴセントリックな人の動き推定,相互作用合成,および包括的分析による相互作用予測に関する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2025-08-06T17:46:23Z) - ProactiveVideoQA: A Comprehensive Benchmark Evaluating Proactive Interactions in Video Large Language Models [41.35497807436858]
本稿では,プロアクティブインタラクションに関わるシステムの能力を評価するための,初の総合的なベンチマークであるProactiveVideoQAを紹介する。
また,モデル応答の時間的ダイナミクスを考慮した最初の指標であるPAUCを提案する。
これらの結果から,PAUCは,アクティブなインタラクションシナリオにおけるユーザエクスペリエンスをより忠実に評価できることがわかった。
論文 参考訳(メタデータ) (2025-07-12T15:11:50Z) - HumanVideo-MME: Benchmarking MLLMs for Human-Centric Video Understanding [120.84817886550765]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。
既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。
我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-07T11:52:24Z) - Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues [54.81155589931697]
協調インスタンスオブジェクトナビゲーション(CoIN)は、エージェントがターゲットインスタンスに関する不確実性を積極的に解決する新しいタスク設定である。
未認識者に対するエージェント・ユーザインタラクション(AIUTA)の新たな学習自由化手法を提案する。
まず、オブジェクト検出時に、セルフクエチオナーモデルがエージェント内で自己対話を開始し、完全かつ正確な観察記述を得る。
インタラクショントリガーモジュールは、人間に質問するか、継続するか、ナビゲーションを停止するかを決定する。
論文 参考訳(メタデータ) (2024-12-02T08:16:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。