論文の概要: Eyes Wide Open: Ego Proactive Video-LLM for Streaming Video
- arxiv url: http://arxiv.org/abs/2510.14560v1
- Date: Thu, 16 Oct 2025 11:11:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.825294
- Title: Eyes Wide Open: Ego Proactive Video-LLM for Streaming Video
- Title(参考訳): Eyes Wide Open:Ego Proactive Video-LLM for Streaming Video
- Authors: Yulin Zhang, Cheng Shi, Yang Wang, Sibei Yang,
- Abstract要約: 我々は、egoストリーミングビデオ入力を前提として、多種多様な質問に積極的に答える革新的なタスクに焦点をあてる。
このタスクは、(1)プロアクティブコヒーレンス、(2)ジャスト・イン・タイム・レスポンシブネス、(3)シンクロナイズド・効率の3つの重要な特性を具現化する。
この課題に対処するための総合的な技術パイプラインを提案する。
- 参考スコア(独自算出の注目度): 36.94345183020698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Envision an AI capable of functioning in human-like settings, moving beyond mere observation to actively understand, anticipate, and proactively respond to unfolding events. Towards this vision, we focus on the innovative task where, given ego-streaming video input, an assistant proactively answers diverse, evolving questions at the opportune moment, while maintaining synchronized perception and reasoning. This task embodies three key properties: (1) Proactive Coherence, (2) Just-in-Time Responsiveness, and (3) Synchronized Efficiency. To evaluate and address these properties, we first introduce ESTP-Bench (Ego Streaming Proactive Benchmark) alongside the ESTP-F1 metric-a novel framework designed for their rigorous assessment. Secondly, we propose a comprehensive technical pipeline to enable models to tackle this challenging task. This pipeline comprises: (1) a data engine, (2) a multi-stage training strategy, and (3) a proactive dynamic compression technique. Our proposed model effectively addresses these critical properties while outperforming multiple baselines across diverse online and offline benchmarks. Project Page:https://zhangyl4.github.io/publications/eyes-wide-open/
- Abstract(参考訳): 人間のような設定で機能し、単に観察を越えて、積極的に理解し、予測し、展開するイベントに積極的に反応するAIを想定する。
このビジョンに向けて、我々は、ego-streamingビデオ入力が与えられたとき、アシスタントは、同期された知覚と推論を維持しながら、多様で進化した質問に積極的に答える、革新的なタスクに焦点をあてる。
このタスクは、(1)プロアクティブコヒーレンス、(2)ジャスト・イン・タイム・レスポンシブネス、(3)シンクロナイズド・効率の3つの重要な特性を具現化する。
これらの特性を評価し,対処するために,まずESTP-F1メトリックスと合わせてESTP-Bench(Ego Streaming Proactive Benchmark)を導入する。
次に、モデルがこの課題に対処できるように、包括的な技術パイプラインを提案する。
本パイプラインは,(1)データエンジン,(2)多段階のトレーニング戦略,(3)アクティブな動的圧縮技術を含む。
提案モデルは,オンラインおよびオフラインの様々なベンチマークにおいて,これらの重要な特性に効果的に対処する。
Project Page:https://zhangyl4.github.io/publications/eyes-wide-open/
関連論文リスト
- Video-LLMs with Temporal Visual Screening [59.18455762289321]
テンポラル・ビジュアル・スクリーニング (TVS) はビデオ質問応答とチューニングデータを処理する新しいタスクである。
TVSは、ビデオインストラクションチューニング(トレーニング)とビデオ質問回答(推論)パイプラインの両方にシームレスに統合可能な、モジュール化されたフロントエンドアダプタタスクとして定式化されている。
実験により、TVSを取り入れた場合、相対利得は7.33%(トレーニング)、34.6%(推論)となることが示された。
論文 参考訳(メタデータ) (2025-08-27T14:33:32Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - QuIIL at T3 challenge: Towards Automation in Life-Saving Intervention Procedures from First-Person View [2.3982875575861677]
そこで我々は,Trauma THOMPSON (T3) Challengeにおける省力化介入手順における,多種多様な自動化タスクに対する解決策を提案する。
動作認識と予測のために,複数の入力を1つの画像にサンプリング・縫合する前処理戦略を提案する。
トレーニングのために,アクション辞書誘導型設計を提案する。
論文 参考訳(メタデータ) (2024-07-18T06:55:26Z) - Action Recognition with Multi-stream Motion Modeling and Mutual
Information Maximization [44.73161606369333]
行動認識は、人工知能の根本的で興味深い問題である。
本稿では,マルチストリームコンポーネントとチャネルアテンションを備えた新しいStream-GCNネットワークを提案する。
提案手法は,3つのベンチマークデータセット上での最先端性能の設定を行う。
論文 参考訳(メタデータ) (2023-06-13T06:56:09Z) - Rolling-Unrolling LSTMs for Action Anticipation from First-Person Video [27.391434284586985]
ローリング・ロールングLSTMは、エゴセントリックなビデオからアクションを予測するための学習アーキテクチャである。
提案手法はEPIC-Kitchens、EGTEA Gaze+、ActivityNetで検証されている。
論文 参考訳(メタデータ) (2020-05-04T14:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。