論文の概要: Proact-VL: A Proactive VideoLLM for Real-Time AI Companions
- arxiv url: http://arxiv.org/abs/2603.03447v1
- Date: Tue, 03 Mar 2026 19:02:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.056326
- Title: Proact-VL: A Proactive VideoLLM for Real-Time AI Companions
- Title(参考訳): Proact-VL: リアルタイムAIコンパニオンのためのプロアクティブビデオLLM
- Authors: Weicai Yan, Yuhong Dai, Qi Ran, Haodong Li, Wang Lin, Hao Liao, Xing Xie, Tao Jin, Jianxun Lian,
- Abstract要約: 自動評価のために選択された2つのゲームシナリオ,コメンテータとガイドを通じて,AIコンパニオンをインスタンス化する。
Proact-VLは,マルチモーダル言語モデルを人間のような環境認識とインタラクションが可能な,能動的,リアルタイムな対話エージェントに形成するフレームワークである。
- 参考スコア(独自算出の注目度): 52.23988809605433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proactive and real-time interactive experiences are essential for human-like AI companions, yet face three key challenges: (1) achieving low-latency inference under continuous streaming inputs, (2) autonomously deciding when to respond, and (3) controlling both quality and quantity of generated content to meet real-time constraints. In this work, we instantiate AI companions through two gaming scenarios, commentator and guide, selected for their suitability for automatic evaluation. We introduce the Live Gaming Benchmark, a large-scale dataset with three representative scenarios: solo commentary, co-commentary, and user guidance, and present Proact-VL, a general framework that shapes multimodal language models into proactive, real-time interactive agents capable of human-like environment perception and interaction. Extensive experiments show Proact-VL achieves superior response latency and quality while maintaining strong video understanding capabilities, demonstrating its practicality for real-time interactive applications.
- Abstract(参考訳): 1)連続的なストリーミング入力下で低レイテンシ推論を達成すること,(2)応答するタイミングを自律的に決定すること,(3)リアルタイムの制約を満たすために生成されたコンテンツの質と量を制御すること,である。
本研究では,AIコンパニオンを2つのゲームシナリオ,コメンテータとガイドを通じてインスタンス化する。
本稿では,マルチモーダル言語モデルを人間のような環境認識とインタラクションが可能な,能動的でリアルタイムな対話型エージェントに形成する汎用フレームワークであるProact-VLを紹介する。
大規模な実験では、Proact-VLは強力なビデオ理解能力を維持しながら、応答レイテンシと品質を向上し、リアルタイムインタラクティブなアプリケーションに実用性を示す。
関連論文リスト
- LifeEval: A Multimodal Benchmark for Assistive AI in Egocentric Daily Life Tasks [71.05217306468857]
LifeEvalは、リアルタイムでタスク指向の人間とAIのコラボレーションを評価するために設計されたマルチモーダルベンチマークである。
LifeEvalは、タスク指向の全体的評価、連続したファーストパーソンストリームからのエゴセントリックなリアルタイム認識、自然な対話による人間と人間の協力的な相互作用の3つの重要な側面を強調している。
論文 参考訳(メタデータ) (2026-02-28T06:05:31Z) - TeleEgo: Benchmarking Egocentric AI Assistants in the Wild [55.53194302888826]
実世界のエゴセントリックなAIアシスタントは、マルチモーダル入力(ビデオ、オーディオ、テキスト)を処理しなければならない
我々は、エゴセントリックなAIアシスタントを評価するために、長いデュレーション、ストリーミング、オムニモーダルのベンチマークであるtextbfTeleEgoを紹介した。
このデータセットは、4つのドメインにわたる同期されたエゴセントリックなビデオ、オーディオ、テキストの参加者あたり14時間以上を特徴としている。
論文 参考訳(メタデータ) (2025-10-28T01:24:24Z) - PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments [36.84821207878773]
マルチモーダル大言語モデル(MLLM)における視覚的推論は、主に静的で完全に観測可能な設定で研究されている。
AVR(Active Visual Reasoning)タスクを導入し、視覚的推論を部分的に観察可能で対話的な環境に拡張する。
推論と情報収集の効率性の両方を評価するために,複数ラウンドの対話型環境を特徴とするベンチマークを提案する。
論文 参考訳(メタデータ) (2025-10-24T02:59:00Z) - VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting [66.90028121194636]
現在のビジョン・ランゲージ・アクション(VLA)モデルは、しばしば堅固で静的な相互作用パラダイムによって制約される。
VITA-Eは、動作とほぼリアルタイムの割り込みの両方のために設計された、新しい具体的相互作用フレームワークである。
論文 参考訳(メタデータ) (2025-10-21T17:59:56Z) - Eyes Wide Open: Ego Proactive Video-LLM for Streaming Video [36.94345183020698]
我々は、egoストリーミングビデオ入力を前提として、多種多様な質問に積極的に答える革新的なタスクに焦点をあてる。
このタスクは、(1)プロアクティブコヒーレンス、(2)ジャスト・イン・タイム・レスポンシブネス、(3)シンクロナイズド・効率の3つの重要な特性を具現化する。
この課題に対処するための総合的な技術パイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-16T11:11:13Z) - FLEXI: Benchmarking Full-duplex Human-LLM Speech Interaction [49.83226596963294]
音声とコンピュータの対話によりリアルタイム音声対話システムを実現する。
これらのモデルのモデリングとベンチマークは、依然として根本的な課題である。
フルヒューマン音声対話のための最初のベンチマークであるFLEXIを紹介する。
論文 参考訳(メタデータ) (2025-09-26T11:57:42Z) - STSBench: A Spatio-temporal Scenario Benchmark for Multi-modal Large Language Models in Autonomous Driving [16.602141801221364]
STSBenchは、自律運転のための視覚言語モデル(VLM)の総合的な理解をベンチマークするためのフレームワークである。
このベンチマークでは、複数のビューにまたがる43の多様なシナリオが特徴で、その結果、971人の人間による検証された複数選択の質問が生まれている。
徹底的な評価により、複雑な環境における基本的なトラフィックダイナミクスを推論する既存のモデルの能力の欠点が明らかになる。
論文 参考訳(メタデータ) (2025-06-06T16:25:22Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - What to Say and When to Say it: Live Fitness Coaching as a Testbed for Situated Interaction [5.958765450103163]
QEVDベンチマークとデータセットは、フィットネスコーチングの挑戦的かつ制御されながら現実的な領域における人間とAIの相互作用を探索するものだ。
このベンチマークでは、複雑な人間の行動を認識し、起こりうる誤りを特定し、リアルタイムで適切なフィードバックを提供するために、視覚言語モデルが必要である。
そこで本研究では,適切なタイミングで適切なフィードバックで人間の行動に非同期に応答できる,シンプルなエンドツーエンドストリーミングベースラインを提案する。
論文 参考訳(メタデータ) (2024-07-11T00:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。