論文の概要: StreamAgent: Towards Anticipatory Agents for Streaming Video Understanding
- arxiv url: http://arxiv.org/abs/2508.01875v1
- Date: Sun, 03 Aug 2025 18:15:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.103096
- Title: StreamAgent: Towards Anticipatory Agents for Streaming Video Understanding
- Title(参考訳): StreamAgent: ビデオ理解のための予測エージェントを目指して
- Authors: Haolin Yang, Feilong Tang, Linxiao Zhao, Xiang An, Ming Hu, Huifa Li, Xinlin Zhuang, Boqian Wang, Yifan Lu, Xiaofeng Zhang, Abdalla Swikir, Junjun He, Zongyuan Ge, Imran Razzak,
- Abstract要約: 本稿では,今後のタスク関連情報を含むと思われる時間間隔と空間領域を予測できるStreamAgentを提案する。
我々は,重要な出来事の時間的進行を予測するために,予測エージェントに期待を促すことによって,質問の意味論と歴史的観察を統合する。
提案手法は,応答精度とリアルタイム効率において既存の手法よりも優れており,実世界のストリーミングシナリオの実用的価値を強調している。
- 参考スコア(独自算出の注目度): 31.935977086526865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time streaming video understanding in domains such as autonomous driving and intelligent surveillance poses challenges beyond conventional offline video processing, requiring continuous perception, proactive decision making, and responsive interaction based on dynamically evolving visual content. However, existing methods rely on alternating perception-reaction or asynchronous triggers, lacking task-driven planning and future anticipation, which limits their real-time responsiveness and proactive decision making in evolving video streams. To this end, we propose a StreamAgent that anticipates the temporal intervals and spatial regions expected to contain future task-relevant information to enable proactive and goal-driven responses. Specifically, we integrate question semantics and historical observations through prompting the anticipatory agent to anticipate the temporal progression of key events, align current observations with the expected future evidence, and subsequently adjust the perception action (e.g., attending to task-relevant regions or continuously tracking in subsequent frames). To enable efficient inference, we design a streaming KV-cache memory mechanism that constructs a hierarchical memory structure for selective recall of relevant tokens, enabling efficient semantic retrieval while reducing the overhead of storing all tokens in the traditional KV-cache. Extensive experiments on streaming and long video understanding tasks demonstrate that our method outperforms existing methods in response accuracy and real-time efficiency, highlighting its practical value for real-world streaming scenarios.
- Abstract(参考訳): 自律運転やインテリジェントな監視といった領域におけるリアルタイムストリーミングビデオ理解は、従来のオフラインビデオ処理以上の課題を引き起こし、継続的な認識、積極的な意思決定、動的に進化するビジュアルコンテンツに基づく応答的なインタラクションを必要とする。
しかし、既存の手法では、知覚反応や非同期トリガーの交互化、タスク駆動計画の欠如、将来の予測などに依存しており、ビデオストリームの進化におけるリアルタイムの応答性と積極的な意思決定を制限している。
そこで本研究では,今後の課題関連情報を含む時間的間隔と空間領域を予測して,積極的かつ目標駆動的な応答を可能にするStreamAgentを提案する。
具体的には、予測エージェントに対して、重要な事象の時間的進行を予測させ、現在の観測を将来の証拠と整列させ、その後、知覚行動(例えば、タスク関連領域への参加、その後のフレームでの継続的な追跡)を調整することで、質問の意味と歴史的観察を統合する。
効率的な推論を実現するため、関連するトークンを選択的にリコールするための階層型メモリ構造を構築するストリーミングKV-cacheメモリ機構を設計し、従来のKV-cacheにすべてのトークンを格納するオーバーヘッドを低減しつつ効率的なセマンティック検索を可能にする。
ストリーミングおよび長時間のビデオ理解タスクに関する大規模な実験により,本手法は応答精度とリアルタイム効率において既存の手法よりも優れており,実世界のストリーミングシナリオにおける実用的価値を強調している。
関連論文リスト
- FDDet: Frequency-Decoupling for Boundary Refinement in Temporal Action Detection [4.015022008487465]
大規模な事前訓練されたビデオエンコーダは、背景の乱雑さと無関係なセマンティクスを導入し、コンテキストの混乱と境界に繋がる。
本稿では,事前学習したモデルから得られた雑音のセマンティクスをフィルタリングすることで,行動識別性を向上させる周波数対応デカップリングネットワークを提案する。
本手法は時間的行動検出ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-01T10:57:37Z) - Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - Motion Forecasting in Continuous Driving [41.6423398623095]
自動運転では、自動運転車が動くと、動きの予測が繰り返し繰り返される。
既存の予測方法は、特定の範囲内で各走行シーンを独立に処理する。
本稿では,連続運転のための新しい動き予測フレームワークであるRealMotionを提案する。
論文 参考訳(メタデータ) (2024-10-08T13:04:57Z) - Implicit Occupancy Flow Fields for Perception and Prediction in
Self-Driving [68.95178518732965]
自動運転車(SDV)は、周囲を認識でき、他の交通参加者の将来の行動を予測できなければならない。
既存の作業は、検出されたオブジェクトの軌跡が続くオブジェクト検出を実行するか、シーン全体の密度の高い占有とフローグリッドを予測するかのいずれかである。
これは、認識と将来の予測に対する統一されたアプローチを動機付け、単一のニューラルネットワークで時間とともに占有とフローを暗黙的に表現します。
論文 参考訳(メタデータ) (2023-08-02T23:39:24Z) - AntPivot: Livestream Highlight Detection via Hierarchical Attention
Mechanism [64.70568612993416]
本稿では,Livestream Highlight Detectionという新たなタスクを定式化し,上記の課題を議論・分析し,新しいアーキテクチャAntPivotを提案する。
我々は、このタスクをインスタンス化し、我々のモデルの性能を評価するために、完全に注釈付きデータセットAntHighlightを構築した。
論文 参考訳(メタデータ) (2022-06-10T05:58:11Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - CCVS: Context-aware Controllable Video Synthesis [95.22008742695772]
プレゼンテーションでは、古いビデオクリップから新しいビデオクリップを合成するための自己教師付き学習アプローチを紹介している。
時間的連続性のための文脈情報と微妙な制御のための補助情報に基づいて合成過程を規定する。
論文 参考訳(メタデータ) (2021-07-16T17:57:44Z) - A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion
Compensation for Action Recognition in the EPIC-Kitchens Dataset [68.8204255655161]
行動認識はコンピュータビジョンにおける最上位の研究分野の一つである。
エゴモーション記録シーケンスは重要な関連性を持つようになった。
提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。
論文 参考訳(メタデータ) (2020-08-26T14:44:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。