論文の概要: YouRefIt: Embodied Reference Understanding with Language and Gesture
- arxiv url: http://arxiv.org/abs/2109.03413v1
- Date: Wed, 8 Sep 2021 03:27:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-09 13:48:30.125178
- Title: YouRefIt: Embodied Reference Understanding with Language and Gesture
- Title(参考訳): YouRefIt: 言語とジェスチャーによる身体的参照理解
- Authors: Yixin Chen, Qing Li, Deqian Kong, Yik Lun Kei, Song-Chun Zhu, Tao Gao,
Yixin Zhu, Siyuan Huang
- Abstract要約: 具体的参照の理解について研究する。
あるエージェントは、言語とジェスチャーの両方を使用して、共有された物理的環境でオブジェクトを別のエージェントに参照する。
クラウドソースされたYouRefItデータセットには、432の屋内シーンで4,195のユニークな参照クリップが含まれている。
- 参考スコア(独自算出の注目度): 95.93218436323481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the understanding of embodied reference: One agent uses both
language and gesture to refer to an object to another agent in a shared
physical environment. Of note, this new visual task requires understanding
multimodal cues with perspective-taking to identify which object is being
referred to. To tackle this problem, we introduce YouRefIt, a new crowd-sourced
dataset of embodied reference collected in various physical scenes; the dataset
contains 4,195 unique reference clips in 432 indoor scenes. To the best of our
knowledge, this is the first embodied reference dataset that allows us to study
referring expressions in daily physical scenes to understand referential
behavior, human communication, and human-robot interaction. We further devise
two benchmarks for image-based and video-based embodied reference
understanding. Comprehensive baselines and extensive experiments provide the
very first result of machine perception on how the referring expressions and
gestures affect the embodied reference understanding. Our results provide
essential evidence that gestural cues are as critical as language cues in
understanding the embodied reference.
- Abstract(参考訳): 一つのエージェントは、言語とジェスチャーの両方を使って、共有された物理的環境において別のエージェントにオブジェクトを参照する。
注目すべきは、この新しい視覚タスクは、どのオブジェクトが参照されているかを特定するために、視点を取るマルチモーダルキューを理解する必要があることだ。
この問題に対処するために,様々な物理的シーンに収集された具体的参照のクラウドソースデータセットであるyourefitを紹介する。このデータセットには432の屋内シーンに4,195のユニークな参照クリップが含まれている。
我々の知る限り、本データセットは、日常の身体的シーンにおける参照表現を研究し、参照行動、ヒューマンコミュニケーション、人間とロボットの相互作用を理解することができる最初の実施済み参照データセットである。
さらに、画像ベースとビデオベースエンボディド参照理解のための2つのベンチマークを考案する。
包括的ベースラインと広範な実験は、参照表現とジェスチャーがエンボディ化された参照理解にどのように影響するかについて、機械認識の最初の結果を提供する。
以上の結果から,体格的手がかりは言語的手がかりと同じくらい重要であり,具体的参照を理解する上で重要であることが示唆された。
関連論文リスト
- J-CRe3: A Japanese Conversation Dataset for Real-world Reference Resolution [22.911318874589448]
実世界の参照解決において、システムは、エゴセントリックな視点で観察される視覚情報とユーザインタラクションに現れる言語情報を接地しなければならない。
我々は,マルチモーダル参照解決タスクを提案し,実世界参照解決のための日本語会話データセット(J-CRe3)を構築した。
我々のデータセットには、実世界の会話のエゴセントリックなビデオと対話音声が含まれています。
論文 参考訳(メタデータ) (2024-03-28T09:32:43Z) - Referring Multi-Object Tracking [78.63827591797124]
本稿では,Multi-object Tracking (RMOT) と呼ばれる,新しい汎用的な参照理解タスクを提案する。
その中核となる考え方は、言語表現を意味的キューとして利用して、多目的追跡の予測を導くことである。
我々の知る限りでは、ビデオにおける任意の数の参照オブジェクト予測を達成するのは、これが初めてである。
論文 参考訳(メタデータ) (2023-03-06T18:50:06Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Phrase-Based Affordance Detection via Cyclic Bilateral Interaction [17.022853987801877]
我々は、視覚言語の観点から、手当を知覚し、困難なフレーズベースの手当検出問題を考察する。
言語と視覚の特徴を段階的に整合させるために,循環的二元整合性向上ネットワーク(CBCE-Net)を提案する。
具体的には、CBCE-Netは、視覚と言語の共通した特徴を進歩的に更新する相互指導型視覚言語モジュールと、循環的に物体との相互作用の認識を容易にする循環的相互作用モジュール(CIM)から構成される。
論文 参考訳(メタデータ) (2022-02-24T13:02:27Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - ClawCraneNet: Leveraging Object-level Relation for Text-based Video
Segmentation [47.7867284770227]
テキストベースのビデオセグメンテーションは、ビデオ内の自然言語参照オブジェクトをセグメンテーションする難しいタスクである。
言語指導でオブジェクトを人間に分割する方法を模倣することで、新しいトップダウンアプローチを導入する。
我々の手法は最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-03-19T09:31:08Z) - Improving Machine Reading Comprehension with Contextualized Commonsense
Knowledge [62.46091695615262]
我々は、機械読解の理解を改善するために、常識知識を抽出することを目指している。
構造化知識を文脈内に配置することで,関係を暗黙的に表現することを提案する。
我々は,教師の学習パラダイムを用いて,複数種類の文脈的知識を学生機械読取機に注入する。
論文 参考訳(メタデータ) (2020-09-12T17:20:01Z) - COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文 参考訳(メタデータ) (2020-07-14T19:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。