論文の概要: RefEgo: Referring Expression Comprehension Dataset from First-Person
Perception of Ego4D
- arxiv url: http://arxiv.org/abs/2308.12035v1
- Date: Wed, 23 Aug 2023 09:49:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 14:47:56.595752
- Title: RefEgo: Referring Expression Comprehension Dataset from First-Person
Perception of Ego4D
- Title(参考訳): RefEgo:Ego4Dの自己認識から得られる表現理解データを参照
- Authors: Shuhei Kurita, Naoki Katsura, Eri Onami
- Abstract要約: 本稿では,ビデオベース参照表現理解データセットRefEgoを提案する。
我々のデータセットは、ビデオベースの参照式理解アノテーションに12K以上のビデオクリップと41時間を含む。
実験では、最先端の2D参照表現理解モデルとオブジェクト追跡アルゴリズムを組み合わせる。
- 参考スコア(独自算出の注目度): 4.655743892667667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grounding textual expressions on scene objects from first-person views is a
truly demanding capability in developing agents that are aware of their
surroundings and behave following intuitive text instructions. Such capability
is of necessity for glass-devices or autonomous robots to localize referred
objects in the real-world. In the conventional referring expression
comprehension tasks of images, however, datasets are mostly constructed based
on the web-crawled data and don't reflect diverse real-world structures on the
task of grounding textual expressions in diverse objects in the real world.
Recently, a massive-scale egocentric video dataset of Ego4D was proposed. Ego4D
covers around the world diverse real-world scenes including numerous indoor and
outdoor situations such as shopping, cooking, walking, talking, manufacturing,
etc. Based on egocentric videos of Ego4D, we constructed a broad coverage of
the video-based referring expression comprehension dataset: RefEgo. Our dataset
includes more than 12k video clips and 41 hours for video-based referring
expression comprehension annotation. In experiments, we combine the
state-of-the-art 2D referring expression comprehension models with the object
tracking algorithm, achieving the video-wise referred object tracking even in
difficult conditions: the referred object becomes out-of-frame in the middle of
the video or multiple similar objects are presented in the video.
- Abstract(参考訳): 一対一の視点からシーンオブジェクトのテキスト表現を接地することは、周囲を認識し、直感的なテキスト指示に従って振る舞うエージェントの開発において本当に要求される能力である。
このような能力は、ガラスデバイスや自律ロボットが現実世界の参照対象をローカライズする必要がある。
しかし、画像の通常の参照表現理解タスクでは、データセットは主にwebクローラーデータに基づいて構築されており、現実世界のさまざまなオブジェクトのテキスト表現を接地するタスクにおいて、多様な現実世界の構造を反映していない。
近年,ego4dの大規模エゴセントリックビデオデータセットが提案されている。
Ego4Dは、ショッピング、料理、ウォーキング、トーキー、製造など、屋内および屋外の多くの状況を含む世界中の多様な現実世界のシーンをカバーしている。
ego4dのエゴセントリックビデオに基づいて、ビデオベースの参照表現理解データセットrefegoの広範なカバレッジを構築しました。
我々のデータセットは、ビデオベースの参照式理解アノテーションに12K以上のビデオクリップと41時間を含む。
実験では、最先端の2D参照表現理解モデルとオブジェクト追跡アルゴリズムを併用し、困難な状況下でもビデオワイド参照オブジェクト追跡を実現する:ビデオの途中で参照オブジェクトがフレーム外になる、あるいはビデオに複数の類似オブジェクトが提示される。
関連論文リスト
- EgoLifter: Open-world 3D Segmentation for Egocentric Perception [10.657841707131416]
EgoLifterは、エゴセントリックなセンサーから撮影したシーンを自動的に分割して、個々の3Dオブジェクトの完全な分解を行うシステムである。
このシステムはエゴセントリックなデータに特化して設計されており、シーンには自然(非走査)の動きから数百の物体が写っている。
論文 参考訳(メタデータ) (2024-03-26T21:48:27Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language [31.691159120136064]
本稿では,自然言語記述とオンラインキャプチャによるマルチモーダル視覚データに基づく大規模動的シーンにおける3次元視覚接地作業について紹介する。
本研究では,画像中のリッチな外観情報,位置,および点雲中の幾何学的手がかりをフル活用して,WildReferという新しい手法を提案する。
われわれのデータセットは、野生の3Dビジュアルグラウンドの研究にとって重要なものであり、自動運転とサービスロボットの開発を促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-04-12T06:48:26Z) - CIRCLE: Capture In Rich Contextual Environments [69.97976304918149]
そこで我々は,アクターが仮想世界において知覚し,操作する新たな動き獲得システムを提案する。
9つのシーンにわたる5人の被験者から10時間のフルボディ到達動作を含むデータセットであるCIRCLEを提示する。
このデータセットを用いて、シーン情報に基づいて人間の動きを生成するモデルを訓練する。
論文 参考訳(メタデータ) (2023-03-31T09:18:12Z) - Fine-Grained Egocentric Hand-Object Segmentation: Dataset, Model, and
Applications [20.571026014771828]
11,243枚のエゴセントリックな画像からなるラベル付きデータセットを,手とオブジェクトのピクセルごとのセグメンテーションラベルで提供する。
私たちのデータセットは、ハンドオブジェクトの接触境界をラベル付けした最初のものです。
我々の堅牢なハンドオブジェクトセグメンテーションモデルとデータセットは、下流の視覚アプリケーションを強化または有効化するための基本的なツールとして機能することを示します。
論文 参考訳(メタデータ) (2022-08-07T21:43:40Z) - EgoEnv: Human-centric environment representations from egocentric video [60.34649902578047]
ファースト・パーソン・ビデオでは、永続的な環境の中でカメラの着用者の活動が強調される。
現在のビデオ理解アプローチは、基礎となる物理空間から切り離された短いビデオクリップから視覚的特徴を引き出す。
本稿では、カメラ装着者の(潜在的に見えない)地域環境を予測できる表現を学習することで、自我中心の映像と環境を結びつけるアプローチを提案する。
論文 参考訳(メタデータ) (2022-07-22T22:39:57Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z) - Learning to Reconstruct and Segment 3D Objects [4.709764624933227]
我々は、ディープニューラルネットワークを用いて一般的な、堅牢な表現を学習することで、その中のシーンやオブジェクトを理解することを目指している。
この論文は、単一または複数ビューからのオブジェクトレベルの3次元形状推定からシーンレベルのセマンティック理解までの3つのコアコントリビューションである。
論文 参考訳(メタデータ) (2020-10-19T15:09:04Z) - COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文 参考訳(メタデータ) (2020-07-14T19:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。