論文の概要: Look and Tell: A Dataset for Multimodal Grounding Across Egocentric and Exocentric Views
- arxiv url: http://arxiv.org/abs/2510.22672v2
- Date: Tue, 28 Oct 2025 08:39:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 13:20:32.891541
- Title: Look and Tell: A Dataset for Multimodal Grounding Across Egocentric and Exocentric Views
- Title(参考訳): Look and Tell: EgocentricとExocentricを対象とするマルチモーダルグラウンドのためのデータセット
- Authors: Anna Deichler, Jonas Beskow,
- Abstract要約: 我々は、エゴセントリックな視点とエゴセントリックな視点をまたいだ参照コミュニケーションを研究するためのマルチモーダルデータセットであるLook and Tellを紹介した。
Meta Project Ariaスマートグラスと静止カメラを使って、25人の参加者がキッチンの材料を特定するようパートナーに指示した、同期した視線、スピーチ、ビデオを記録しました。
データセットには3.67時間の録音が含まれており、その中には2,707の注釈付き参照表現が含まれている。
- 参考スコア(独自算出の注目度): 5.723697351415207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Look and Tell, a multimodal dataset for studying referential communication across egocentric and exocentric perspectives. Using Meta Project Aria smart glasses and stationary cameras, we recorded synchronized gaze, speech, and video as 25 participants instructed a partner to identify ingredients in a kitchen. Combined with 3D scene reconstructions, this setup provides a benchmark for evaluating how different spatial representations (2D vs. 3D; ego vs. exo) affect multimodal grounding. The dataset contains 3.67 hours of recordings, including 2,707 richly annotated referential expressions, and is designed to advance the development of embodied agents that can understand and engage in situated dialogue.
- Abstract(参考訳): 我々は、エゴセントリックな視点とエゴセントリックな視点をまたいだ参照コミュニケーションを研究するためのマルチモーダルデータセットであるLook and Tellを紹介した。
Meta Project Ariaスマートグラスと静止カメラを使って、25人の参加者がキッチンの材料を特定するようパートナーに指示した、同期した視線、スピーチ、ビデオを記録しました。
3Dシーン再構成と組み合わせて、このセットアップは、異なる空間表現(2D vs. 3D; ego vs. exo)がマルチモーダルグラウンドに与える影響を評価するためのベンチマークを提供する。
データセットには2,707個の注釈付き参照表現を含む3.67時間の録音が含まれており、位置する対話を理解し、関与できるエンボディエージェントの開発を促進するように設計されている。
関連論文リスト
- MM-Conv: A Multi-modal Conversational Dataset for Virtual Humans [4.098892268127572]
物理シミュレーター(AI2-THOR)内の参加者間の会話を記録するためにVRヘッドセットを用いた新しいデータセットを提案する。
我々の主な目的は、参照設定にリッチな文脈情報を組み込むことで、共同音声ジェスチャ生成の分野を拡張することである。
論文 参考訳(メタデータ) (2024-09-30T21:51:30Z) - Grounding 3D Scene Affordance From Egocentric Interactions [52.5827242925951]
接地型3Dシーンアベイランスは、3D環境におけるインタラクティブな領域を見つけることを目的としている。
我々は,エゴセントリックなインタラクションから3Dシーンの空き時間を確保するという,新しい課題を紹介した。
論文 参考訳(メタデータ) (2024-09-29T10:46:19Z) - Put Myself in Your Shoes: Lifting the Egocentric Perspective from
Exocentric Videos [66.46812056962567]
Exocentric-to-egocentric cross-view translationは、第三者(exocentric)の観点からアクターをキャプチャするビデオ録画に基づいて、アクターの1人(egocentric)ビューを生成することを目的としている。
そこで我々は,Exo2Egoという,翻訳過程を高次構造変換と画素レベルの幻覚の2段階に分解する生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T01:00:00Z) - 3D Human Pose Perception from Egocentric Stereo Videos [67.9563319914377]
我々は,エゴセントリックな立体3次元ポーズ推定を改善するためのトランスフォーマーベースの新しいフレームワークを提案する。
本手法は, しゃがんだり座ったりといった困難なシナリオにおいても, 人間のポーズを正確に推定することができる。
私たちはUnrealEgo2、UnrealEgo-RW、およびトレーニングされたモデルをプロジェクトページでリリースします。
論文 参考訳(メタデータ) (2023-12-30T21:21:54Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - Enhancing Egocentric 3D Pose Estimation with Third Person Views [37.9683439632693]
本研究では,1台のウェアラブルカメラから撮影した映像から計算した人物の3次元身振り推定を強化する新しい手法を提案する。
First2Third-Poseは、最初の視点と第三視点の両方から捉えた人間の活動を描いた2000近いビデオからなる、ペア化された新しい同期データセットである。
実験により,データセットを用いて学習した多視点埋め込み空間は,任意の単視点自我中心ビデオから識別的特徴を抽出するのに有用であることが示された。
論文 参考訳(メタデータ) (2022-01-06T11:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。