論文の概要: VISTA: Technical Report for the Ego4D Short-Term Object Interaction Anticipation at EgoVis 2026
- arxiv url: http://arxiv.org/abs/2605.20901v1
- Date: Wed, 20 May 2026 08:42:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.576345
- Title: VISTA: Technical Report for the Ego4D Short-Term Object Interaction Anticipation at EgoVis 2026
- Title(参考訳): VISTA:2026年EgoVisにおけるEgo4D短期物体相互作用予測技術報告
- Authors: Qiaohui Chu, Haoyu Zhang, Yisen Feng, Meng Liu, Weili Guan, Dongmei Jiang, Liqiang Nie,
- Abstract要約: エゴセントリックなビデオタイムスタンプが与えられたら、次の人間と物体の相互作用を予測する必要がある。
ViSTAは、オブジェクト中心空間検出と短時間時間コンテキストを組み合わせたStillFastスタイルの設計に従う。
実験の結果、VISTAはEgoVis 2026 Ego4D STA Challengeで1位を獲得した。
- 参考スコア(独自算出の注目度): 70.67609435035631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose VISTA, a V-JEPA Integrated StillFast Temporal Anticipator for the Ego4D Short-Term Object Interaction Anticipation (STA) Challenge at EgoVis 2026. Given an egocentric video timestamp, the task requires anticipating the next human-object interaction, including the future active object's bounding box, noun category, verb category, time-to-contact, and confidence score. VISTA follows a StillFast-style design that combines object-centric spatial detection with short-horizon temporal context. Specifically, a COCO-pretrained Faster R-CNN ResNet-50 FPN detector generates object proposals from the last observed high-resolution frame, while a frozen V-JEPA 2.1 temporal branch extracts clip-level egocentric context from the observed video. The temporal representation is injected into the detection pathway through feature modulation and ROI-level context fusion. The fused proposal features are then passed to multi-head STA predictors for box refinement, noun classification, verb classification, time-to-contact regression, and interaction confidence estimation. For the final submission, we further ensemble complementary predictions to improve robustness. Experimental results on the official challenge server show that VISTA achieves first place in the EgoVis 2026 Ego4D STA Challenge. Our code will be released at https://github.com/CorrineQiu/VISTA.
- Abstract(参考訳): 我々は,EgoVis 2026におけるEgo4D Short-Term Object Interaction Precipation (STA) ChallengeのためのV-JEPA統合型時空間予測器であるVISTAを提案する。
エゴセントリックなビデオタイムスタンプを与えられたタスクは、将来のアクティブオブジェクトのバウンディングボックス、名詞カテゴリ、動詞カテゴリ、タイム・トゥ・コンタクト、信頼スコアを含む、次の人間とオブジェクトの相互作用を予測する必要がある。
VISTAは、オブジェクト中心空間検出と短時間時間文脈を組み合わせたStillFastスタイルの設計に従う。
特に、COCOで事前訓練された高速R-CNN ResNet-50 FPN検出器は、最後に観測された高解像度フレームからオブジェクト提案を生成し、凍結されたV-JEPA 2.1時間分岐は、観察されたビデオからクリップレベルのエゴセントリックコンテキストを抽出する。
時間的表現は、特徴変調とROIレベルのコンテキスト融合を通じて検出経路に注入される。
融合された提案機能は、ボックスリファインメント、名詞分類、動詞分類、時間対接触回帰、相互作用信頼度推定のためのマルチヘッドSTA予測器に渡される。
最後に、ロバスト性を改善するために補完的な予測を更にまとめる。
公式チャレンジサーバの実験結果は、VISTAがEgoVis 2026 Ego4D STA Challengeで1位を獲得したことを示している。
私たちのコードはhttps://github.com/CorrineQiu/VISTA.comでリリースされます。
関連論文リスト
- Integrating Affordances and Attention models for Short-Term Object Interaction Anticipation [17.55088626523059]
短期的オブジェクトインタラクションの予測は、ウェアラブルアシスタントがユーザの目標を理解し、タイムリーな支援を提供するために不可欠である。
本研究では,STA予測の性能向上手法を提案する。
以上の結果より,EPIC-Kitchens STAラベルの新規セットでは,Ego4Dでは+23p.p,Ego4Dでは+31p.p,EPIC-Kitchens STAラベルでは+31p.pとなった。
論文 参考訳(メタデータ) (2026-02-16T15:29:04Z) - Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - Short-term Object Interaction Anticipation with Disentangled Object Detection @ Ego4D Short Term Object Interaction Anticipation Challenge [11.429137967096935]
エゴセントリックなビデオ分析では,短期的な物体相互作用の予測が重要な課題である。
提案手法であるSOIA-DODは,1)アクティブオブジェクトの検出,2)インタラクションの分類とタイミングの予測に効果的に分解する。
提案手法は,まず,事前学習したYOLOv9を微調整することにより,エゴセントリックビデオの最終フレームにおける潜在能動物体を検知する。
論文 参考訳(メタデータ) (2024-07-08T08:13:16Z) - ZARRIO @ Ego4D Short Term Object Interaction Anticipation Challenge: Leveraging Affordances and Attention-based models for STA [10.144283429670807]
STA(Short-Term Object-Interaction Precipation)は、次のアクティブなオブジェクトの位置、対話の名詞と動詞のカテゴリ、および自我中心のビデオの観察から接触する時間を検出することで構成される。
STAformerは、フレーム誘導時間プーリング、デュアルイメージビデオアテンション、マルチスケール機能融合を統合し、画像入力ビデオペアからのSTA予測をサポートする新しいアテンションベースアーキテクチャである。
論文 参考訳(メタデータ) (2024-07-05T09:16:30Z) - AFF-ttention! Affordances and Attention models for Short-Term Object Interaction Anticipation [14.734158936250918]
短期的オブジェクトインタラクション予測は、ユーザの目標を理解するためにウェアラブルアシスタントやヒューマンロボットのインタラクションに不可欠である。
我々は2つのコントリビューションでSTA予測の性能を改善した。
まず、フレーム誘導時間プーリング、デュアルイメージ・ビデオアテンション、マルチスケール機能融合を統合した新しいアテンションベースアーキテクチャであるSTAformerを提案する。
第2に、手と物体の軌跡の観測から相互作用ホットスポットを予測し、ホットスポット周辺に局在したSTA予測に対する信頼性を高める。
論文 参考訳(メタデータ) (2024-06-03T10:57:18Z) - Recurrent Vision Transformers for Object Detection with Event Cameras [62.27246562304705]
本稿では,イベントカメラを用いた物体検出のための新しいバックボーンであるリカレントビジョントランス (RVT) を提案する。
RVTは、イベントベースのオブジェクト検出で最先端のパフォーマンスに到達するために、ゼロからトレーニングすることができる。
私たちの研究は、イベントベースのビジョンを超えた研究に役立ち得る効果的なデザイン選択に、新たな洞察をもたらします。
論文 参考訳(メタデータ) (2022-12-11T20:28:59Z) - A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion
Compensation for Action Recognition in the EPIC-Kitchens Dataset [68.8204255655161]
行動認識はコンピュータビジョンにおける最上位の研究分野の一つである。
エゴモーション記録シーケンスは重要な関連性を持つようになった。
提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。
論文 参考訳(メタデータ) (2020-08-26T14:44:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。