論文の概要: EgoInteract: Synthetic Egocentric Videos Generation for Interaction Understanding and Anticipation
- arxiv url: http://arxiv.org/abs/2605.18214v2
- Date: Fri, 22 May 2026 16:21:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 14:44:53.684903
- Title: EgoInteract: Synthetic Egocentric Videos Generation for Interaction Understanding and Anticipation
- Title(参考訳): EgoInteract: 対話理解と予測のための合成エゴセントリックビデオ生成
- Authors: Rosario Leonardi, Francesco Ragusa, Daniele Materia, Alessandro Passanisi, James Fort, Jakob Engel, Giovanni Maria Farinella,
- Abstract要約: 微細なエゴセントリックな相互作用とその時間的ダイナミクスをモデル化するための,エゴセントリックなビデオ生成のための制御可能なシミュレータを提案する。
我々は,時間的動作のセグメンテーション,次のアクティブ物体検出,相互作用予測,手動物体の相互作用検出のための高密度な空間的および時間的アノテーションを備えた合成エゴセントリックビデオデータセットを生成する。
その結果、タスクとデータセット間の強いベースラインよりも一貫した改善が示され、シミュレーションベースのアプローチの有効性と転送性を示している。
- 参考スコア(独自算出の注目度): 45.01838097419948
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Collecting large-scale egocentric video datasets with dense spatial and temporal annotations is costly, slow, and often constrained by environmental biases, privacy constraints, and limited coverage of interaction patterns. While synthetic data has shown strong potential in several vision domains, its use for egocentric perception remains relatively underexplored, especially for tasks requiring temporally coherent human-object interactions. In this work, we introduce EgoInteract, a controllable simulator for egocentric video generation designed to model fine-grained egocentric interactions and their temporal dynamics. The simulator enables precise control over camera, human body and hand motion, object manipulation, and scene composition across diverse environments. Building on this framework, we generate a synthetic egocentric video dataset with dense spatial and temporal annotations for temporal action segmentation, next-active object detection, interaction anticipation, and hand-object interaction detection. We evaluate models trained with simulated data on multiple real-world egocentric benchmarks spanning diverse environments, object categories, and interaction patterns. Results show consistent improvements over strong baselines across tasks and datasets, demonstrating the effectiveness and transferability of our simulation-based approach.
- Abstract(参考訳): 密集した空間的および時間的アノテーションで大規模なエゴセントリックなビデオデータセットを収集することは、コストが高く、遅く、しばしば環境バイアス、プライバシーの制約、インタラクションパターンの限られたカバレッジによって制約される。
合成データはいくつかの視覚領域において強いポテンシャルを示してきたが、その自我中心の知覚への利用は、特に時間的に整合した人間と物体の相互作用を必要とするタスクに対して、比較的過小評価されている。
本研究では,エゴセントリックビデオ生成のための制御可能なシミュレータであるEgoInteractを紹介し,細粒度なエゴセントリックなインタラクションとその時間的ダイナミクスをモデル化する。
このシミュレータは、カメラ、人体、手の動き、オブジェクト操作、および様々な環境におけるシーン構成の正確な制御を可能にする。
この枠組みに基づいて,時間的アクションセグメンテーション,次アクティブオブジェクト検出,インタラクション予測,手動オブジェクトインタラクション検出のための高密度な空間的および時間的アノテーションを備えた合成エゴセントリックビデオデータセットを生成する。
我々は,多様な環境,オブジェクトカテゴリ,インタラクションパターンにまたがる複数の実世界のエゴセントリックベンチマークにおいて,シミュレーションデータを用いて訓練されたモデルを評価する。
その結果、タスクとデータセット間の強いベースラインよりも一貫した改善が示され、シミュレーションベースのアプローチの有効性と転送性を示している。
関連論文リスト
- SocialMirror: Reconstructing 3D Human Interaction Behaviors from Monocular Videos with Semantic and Geometric Guidance [49.69016078147708]
密接な相互作用シナリオにおける人間の行動の正確な再構築は、拡張現実における現実的な仮想インタラクションの実現に不可欠である。
本稿では,これらの問題に効果的に対処するための意味的および幾何学的手がかりを統合する拡散ベースのフレームワークであるSocialMirrorを提案する。
SocialMirrorはインタラクティブなヒューマンメッシュを再構築する上で,最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-04-15T07:41:52Z) - Understanding Dynamic Scenes in Ego Centric 4D Point Clouds [7.004204907286336]
EgoDynamic4Dは、非常にダイナミックなシーンに関する新しいQAベンチマークである。
エージェントの動作,人間と物体の相互作用予測,関係,軌道の理解,時間・因果推論,詳細な指標を含む12の動的QAタスクを設計する。
提案手法は,エゴ中心の動的シーン理解のためのマルチモーダル時間モデルの有効性を検証し,ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-08-10T09:08:04Z) - TARDIS STRIDE: A Spatio-Temporal Road Image Dataset and World Model for Autonomy [44.85881816317044]
本研究では,360度パノラマ画像を相互接続した観測,状態,行動ノードに変換する方法を示す。
我々は、このデータセットをトランスフォーマーベースの生成ワールドモデルであるTARDISを介してベンチマークする。
我々は、制御可能な画像合成、命令追従、自律的自己制御、最先端のジオレファレンスなど、さまざまなエージェントタスクにおいて、堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-06-12T21:08:11Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。