論文の概要: Zero-Shot Temporal Interaction Localization for Egocentric Videos
- arxiv url: http://arxiv.org/abs/2506.03662v2
- Date: Wed, 11 Jun 2025 00:15:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 02:07:43.250799
- Title: Zero-Shot Temporal Interaction Localization for Egocentric Videos
- Title(参考訳): エゴセントリックビデオにおけるゼロショット時間相互作用の局在化
- Authors: Erhang Zhang, Junyi Ma, Yin-Dong Zheng, Yixuan Zhou, Hesheng Wang,
- Abstract要約: EgoLocと呼ばれる新しいゼロショットTIL手法を提案する。
2Dと3Dの両方を吸収することにより、EgoLocはHOIの接触/分離タイムスタンプに関する高品質な初期推定を直接サンプリングする。
EgoLocは、最先端のベースラインに比べて、エゴセントリックなビデオの時間的相互作用のローカライゼーションが優れている。
- 参考スコア(独自算出の注目度): 13.70694228506315
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Locating human-object interaction (HOI) actions within video serves as the foundation for multiple downstream tasks, such as human behavior analysis and human-robot skill transfer. Current temporal action localization methods typically rely on annotated action and object categories of interactions for optimization, which leads to domain bias and low deployment efficiency. Although some recent works have achieved zero-shot temporal action localization (ZS-TAL) with large vision-language models (VLMs), their coarse-grained estimations and open-loop pipelines hinder further performance improvements for temporal interaction localization (TIL). To address these issues, we propose a novel zero-shot TIL approach dubbed EgoLoc to locate the timings of grasp actions for human-object interaction in egocentric videos. EgoLoc introduces a self-adaptive sampling strategy to generate reasonable visual prompts for VLM reasoning. By absorbing both 2D and 3D observations, it directly samples high-quality initial guesses around the possible contact/separation timestamps of HOI according to 3D hand velocities, leading to high inference accuracy and efficiency. In addition, EgoLoc generates closed-loop feedback from visual and dynamic cues to further refine the localization results. Comprehensive experiments on the publicly available dataset and our newly proposed benchmark demonstrate that EgoLoc achieves better temporal interaction localization for egocentric videos compared to state-of-the-art baselines. We will release our code and relevant data as open-source at https://github.com/IRMVLab/EgoLoc.
- Abstract(参考訳): ビデオ内のヒューマン・オブジェクト・インタラクション(HOI)アクションの配置は、人間の行動分析やヒューマン・ロボットのスキル伝達など、複数の下流タスクの基盤となる。
現在の時間的行動ローカライゼーション手法は、一般的に最適化のためのアノテーション付きアクションとオブジェクトのカテゴリに依存しており、ドメインバイアスと配置効率の低下につながる。
近年の研究では、大きな視覚言語モデル(VLM)を用いたゼロショット時間的動作ローカライゼーション(ZS-TAL)が達成されているが、その粗粒度推定とオープンループパイプラインは、時間的相互作用ローカライゼーション(TIL)のさらなるパフォーマンス改善を妨げている。
これらの問題に対処するために,エゴセントリックビデオにおける人間と物体の相互作用の把握行動のタイミングを特定するため,EgoLocと呼ばれる新しいゼロショットTIL手法を提案する。
EgoLocは、VLM推論のための合理的な視覚的プロンプトを生成するための自己適応型サンプリング戦略を導入した。
2Dと3Dの両方の観察を吸収することにより、3Dの手の速度に応じてHOIの接触・分離タイムスタンプに関する高品質な初期推測を直接サンプリングし、高い推測精度と効率をもたらす。
さらに、EgoLocは視覚的およびダイナミックなキューからクローズドループフィードバックを生成し、ローカライゼーション結果をさらに洗練する。
公開データセットに関する総合的な実験と、新たに提案したベンチマークにより、EgoLocは、最先端のベースラインに比べて、エゴセントリックなビデオの時間的相互作用のローカライゼーションが優れていることが示された。
コードと関連するデータはhttps://github.com/IRMVLab/EgoLoc.comでオープンソースとして公開します。
関連論文リスト
- EgoVLM: Policy Optimization for Egocentric Video Understanding [2.397572703240721]
本稿では,視覚的理解と空間的時間的推論を統合した視覚言語モデルであるEgoVLMを紹介する。
EgoVLMは、モデル出力を人間ライクな推論ステップに合わせるように適応した強化学習手法であるグループ相対ポリシー最適化(GRPO)を介して微調整される。
我々のEgoVLMBは、非CoTエゴセントリックなデータに特化して訓練されており、ベースとなるQwen2.5-VL 3Bと7Bをそれぞれ14.33倍、Egoベンチマークで13.87精度で上回っている。
論文 参考訳(メタデータ) (2025-06-03T17:28:00Z) - Omnia de EgoTempo: Benchmarking Temporal Understanding of Multi-Modal LLMs in Egocentric Videos [51.8995932557911]
EgoTempoは、エゴセントリックドメインにおける時間的理解を評価するために設計されたデータセットである。
本稿では,ベンチマークにおける最先端のマルチモーダル言語モデル (MLLM) が,テキストやフレームのみを入力として,驚くほど高い性能を実現していることを示す。
EgoTempoがこの分野の新たな研究を触媒し、時間的ダイナミクスの複雑さをよりよく捉えたモデルに刺激を与えることを期待している。
論文 参考訳(メタデータ) (2025-03-17T18:50:36Z) - Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration [28.825612240280822]
本稿では,言語理解,エゴセントリックなシーン認識,モーションコントロールを統合し,普遍的なヒューマノイド制御を実現する新しいフレームワークを提案する。
Humanoid-VLAは、テキスト記述と組み合わせた非エゴセントリックな人間の動きデータセットを使用して、言語運動の事前アライメントから始まる。
そして、パラメータを効率よくビデオコンディショニングすることで、エゴセントリックな視覚コンテキストを取り入れ、コンテキスト認識モーション生成を可能にする。
論文 参考訳(メタデータ) (2025-02-20T18:17:11Z) - MLP: Motion Label Prior for Temporal Sentence Localization in Untrimmed 3D Human Motions [20.986063755422173]
本研究の目的は,テキストクエリに対応する3次元人間の動作から目標モーメントを見つけることである。
これを改善するために,2つの新しいラベル事前知識学習手法を考案した。
ラベル優先知識をモデルに注入することは,高いIoUでの性能向上に不可欠であることを示す。
論文 参考訳(メタデータ) (2024-04-21T13:25:46Z) - RoHM: Robust Human Motion Reconstruction via Diffusion [58.63706638272891]
RoHMは、モノクロRGB(-D)ビデオから頑健な3次元人間の動きを復元するためのアプローチである。
ノイズと閉鎖された入力データに条件付けし、一貫した大域座標で完全な可塑性運動を再構成した。
本手法は,テスト時に高速でありながら,定性的かつ定量的に最先端の手法より優れる。
論文 参考訳(メタデータ) (2024-01-16T18:57:50Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Improving Robustness and Accuracy via Relative Information Encoding in
3D Human Pose Estimation [59.94032196768748]
位置および時間的拡張表現を出力する相対情報符号化法を提案する。
提案手法は2つの公開データセット上で最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-07-29T14:12:19Z) - ST-HOI: A Spatial-Temporal Baseline for Human-Object Interaction
Detection in Videos [91.29436920371003]
時空間HoI検出(ST-HOI)という,シンプルで効果的なアーキテクチャを提案する。
我々は、人や物体の軌跡、正しく位置付けられた視覚的特徴、空間的マスキングのポーズ特徴などの時間的情報を利用する。
我々は、VidHOIと呼ばれる新しいビデオHOIベンチマークを構築し、提案手法は安定したベースラインとして機能する。
論文 参考訳(メタデータ) (2021-05-25T07:54:35Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。