論文の概要: Perceiving and Acting in First-Person: A Dataset and Benchmark for Egocentric Human-Object-Human Interactions
- arxiv url: http://arxiv.org/abs/2508.04681v1
- Date: Wed, 06 Aug 2025 17:46:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.860162
- Title: Perceiving and Acting in First-Person: A Dataset and Benchmark for Egocentric Human-Object-Human Interactions
- Title(参考訳): 自己中心型人間-人間インタラクションのためのデータセットとベンチマーク
- Authors: Liang Xu, Chengqun Yang, Zili Lin, Fei Xu, Yifan Liu, Congsheng Xu, Yiyi Zhang, Jie Qin, Xingdong Sheng, Yunhui Liu, Xin Jin, Yichao Yan, Wenjun Zeng, Xiaokang Yang,
- Abstract要約: 本稿では、手動支援タスクを視覚言語アクションフレームワークに組み込み、そのアシスタントは、自我中心のビジョンとコマンドに従ってインストラクターにサービスを提供する。
この設定の下で、我々は、マルチモーダルデータの11.4時間1.2Mフレームを持つ、最初の大規模人・物・人間のインタラクションデータセットであるInterVLAを達成した。
我々は,エゴセントリックな人の動き推定,相互作用合成,および包括的分析による相互作用予測に関する新しいベンチマークを構築した。
- 参考スコア(独自算出の注目度): 110.43343503158306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning action models from real-world human-centric interaction datasets is important towards building general-purpose intelligent assistants with efficiency. However, most existing datasets only offer specialist interaction category and ignore that AI assistants perceive and act based on first-person acquisition. We urge that both the generalist interaction knowledge and egocentric modality are indispensable. In this paper, we embed the manual-assisted task into a vision-language-action framework, where the assistant provides services to the instructor following egocentric vision and commands. With our hybrid RGB-MoCap system, pairs of assistants and instructors engage with multiple objects and the scene following GPT-generated scripts. Under this setting, we accomplish InterVLA, the first large-scale human-object-human interaction dataset with 11.4 hours and 1.2M frames of multimodal data, spanning 2 egocentric and 5 exocentric videos, accurate human/object motions and verbal commands. Furthermore, we establish novel benchmarks on egocentric human motion estimation, interaction synthesis, and interaction prediction with comprehensive analysis. We believe that our InterVLA testbed and the benchmarks will foster future works on building AI agents in the physical world.
- Abstract(参考訳): 実世界の人間中心のインタラクションデータセットからアクションモデルを学ぶことは、汎用的なインテリジェントアシスタントを効率よく構築する上で重要である。
しかし、既存のデータセットのほとんどは、専門的なインタラクションカテゴリのみを提供し、AIアシスタントが第一人物の獲得に基づいて認識し、行動することを無視している。
我々は、一般の相互作用知識と自我中心のモダリティの両方が不可欠であるように促す。
本稿では,手動支援タスクを視覚言語アクションフレームワークに組み込む。
我々のハイブリッドRGB-MoCapシステムでは、アシスタントとインストラクターのペアが複数のオブジェクトやGPT生成スクリプトに従ってシーンを処理します。
この設定では、InterVLAは、11.4時間1.2Mフレームのマルチモーダルデータの大規模な人間とオブジェクトのインタラクションデータセットであり、2つのエゴセントリックなビデオ、5つのエゴセントリックなビデオ、正確な人間とオブジェクトの動作、言語コマンドにまたがる。
さらに,エゴセントリックな人の動き推定,相互作用合成,および包括的分析による相互作用予測に関する新しいベンチマークを構築した。
私たちは、InterVLAテストベッドとベンチマークが、物理的な世界でAIエージェントを構築するための将来の作業を促進すると信じています。
関連論文リスト
- Human-Object Interaction via Automatically Designed VLM-Guided Motion Policy [30.43930233035367]
VLM(Vision-Language Models)を利用した最初の統合物理ベースのHOフレームワークを紹介する。
VLM-Guided Relative Movement Dynamics (RMD)を導入する。これは、強化学習のための目標状態と報酬関数を自動的に構築する、微細な時間的二部運動表現である。
提案手法をサポートするために,何千もの長期の静的および動的相互作用計画を持つ新しいデータセットであるInterplayを提案する。
論文 参考訳(メタデータ) (2025-03-24T05:18:04Z) - EgoLife: Towards Egocentric Life Assistant [60.51196061794498]
我々はEgoLifeを紹介した。EgoLifeは、AIを使ったウェアラブルグラスを通じて、個人の効率を向上するエゴセントリックなライフアシスタントを開発するプロジェクトだ。
我々は、6人の参加者が1週間一緒に暮らし、マルチモーダル・エゴセントリックなビデオキャプチャーにAIグラスを使用して日々の活動を継続的に記録し、同期された3人称ビデオ参照を行う総合的なデータ収集研究を行った。
この取り組みの結果、EgoLifeデータセットは、集中的なアノテーションを備えた300時間のエゴセントリック、対人、マルチビュー、マルチモーダルの日常生活データセットである。
私たちはEgoLifeQAを紹介します。EgoLifeQAは、長いコンテキスト、ライフ指向の質問応答タスクのスイートで、提供するように設計されています。
論文 参考訳(メタデータ) (2025-03-05T18:54:16Z) - Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration [28.825612240280822]
本稿では,言語理解,エゴセントリックなシーン認識,モーションコントロールを統合し,普遍的なヒューマノイド制御を実現する新しいフレームワークを提案する。
Humanoid-VLAは、テキスト記述と組み合わせた非エゴセントリックな人間の動きデータセットを使用して、言語運動の事前アライメントから始まる。
そして、パラメータを効率よくビデオコンディショニングすることで、エゴセントリックな視覚コンテキストを取り入れ、コンテキスト認識モーション生成を可能にする。
論文 参考訳(メタデータ) (2025-02-20T18:17:11Z) - EgoMe: A New Dataset and Challenge for Following Me via Egocentric View in Real World [12.699670048897085]
人間の模倣学習において、模倣者は、通常、自我中心の視点を基準として、自我中心の視点から自我中心の視点に観察された振る舞いを自然に伝達する。
実世界における模倣者の自我中心的な視点を通じて、人間の模倣学習のプロセスに従うためのEgoMeを紹介する。
我々のデータセットには7902対のエゴビデオが含まれており、様々な現実のシナリオにおいて多様な日々の行動にまたがっている。
論文 参考訳(メタデータ) (2025-01-31T11:48:22Z) - Inter-X: Towards Versatile Human-Human Interaction Analysis [100.254438708001]
正確な身体の動きと多様な相互作用パターンを持つデータセットであるInter-Xを提案する。
データセットは、1Kの相互作用シーケンスと8.1Mフレーム以上を含む。
また、Inter-Xには34K以上の微粒な人間のテキスト記述の多義アノテーションも備えています。
論文 参考訳(メタデータ) (2023-12-26T13:36:05Z) - HoloAssist: an Egocentric Human Interaction Dataset for Interactive AI
Assistants in the Real World [48.90399899928823]
この研究は、物理的な世界でのタスクを実行することで人間を対話的に導くインテリジェントエージェントを開発するための、より広範な研究努力の一環である。
大規模なエゴセントリックなヒューマンインタラクションデータセットであるHoloAssistを紹介する。
人間のアシスタントがミスを正し、タスク完了手順に介入し、環境に指示を下す方法について、重要な知見を提示する。
論文 参考訳(メタデータ) (2023-09-29T07:17:43Z) - Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - MECCANO: A Multimodal Egocentric Dataset for Humans Behavior
Understanding in the Industrial-like Domain [23.598727613908853]
本稿では,産業的な環境下での人間の行動理解を目的とした,エゴセントリックなビデオのデータセットMECCANOを提案する。
マルチモダリティの特徴は、視線信号、深度マップ、RGBビデオとカスタムヘッドセットが同時に取得される点である。
データセットは、人間の行動理解の文脈における基本的なタスクに対して、一人称視点から明示的にラベル付けされている。
論文 参考訳(メタデータ) (2022-09-19T00:52:42Z) - The MECCANO Dataset: Understanding Human-Object Interactions from
Egocentric Videos in an Industrial-like Domain [20.99718135562034]
我々は,産業的な環境下での人間と物体の相互作用を研究するための,エゴセントリックビデオの最初のデータセットであるMECCANOを紹介した。
このデータセットは、人間とオブジェクトの相互作用をエゴセントリックな視点から認識するタスクのために明示的にラベル付けされている。
ベースラインの結果から,MECCANOデータセットは,産業的なシナリオにおける自我中心の人間とオブジェクトの相互作用を研究する上で,困難なベンチマークであることが示された。
論文 参考訳(メタデータ) (2020-10-12T12:50:30Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。