論文の概要: Spatial and Visual Perspective-Taking via View Rotation and Relation
Reasoning for Embodied Reference Understanding
- arxiv url: http://arxiv.org/abs/2309.01073v1
- Date: Sun, 3 Sep 2023 04:28:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 23:29:04.608130
- Title: Spatial and Visual Perspective-Taking via View Rotation and Relation
Reasoning for Embodied Reference Understanding
- Title(参考訳): 身体的参照理解のための視線回転と関係推論による空間的・視覚的パースペクティブテイキング
- Authors: Cheng Shi and Sibei Yang
- Abstract要約: 身体的参照理解(Embodied Reference Understanding)は、身体的方法での参照理解を研究する。
主な課題は、エゴセントリックな視点で空間情報や視覚情報にアクセスできるようにする方法である。
本稿では,この課題に対処するため,Reasoning from your Perspective (REP)法を提案する。
- 参考スコア(独自算出の注目度): 28.983503845298824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied Reference Understanding studies the reference understanding in an
embodied fashion, where a receiver is required to locate a target object
referred to by both language and gesture of the sender in a shared physical
environment. Its main challenge lies in how to make the receiver with the
egocentric view access spatial and visual information relative to the sender to
judge how objects are oriented around and seen from the sender, i.e., spatial
and visual perspective-taking. In this paper, we propose a REasoning from your
Perspective (REP) method to tackle the challenge by modeling relations between
the receiver and the sender and the sender and the objects via the proposed
novel view rotation and relation reasoning. Specifically, view rotation first
rotates the receiver to the position of the sender by constructing an embodied
3D coordinate system with the position of the sender as the origin. Then, it
changes the orientation of the receiver to the orientation of the sender by
encoding the body orientation and gesture of the sender. Relation reasoning
models the nonverbal and verbal relations between the sender and the objects by
multi-modal cooperative reasoning in gesture, language, visual content, and
spatial position. Experiment results demonstrate the effectiveness of REP,
which consistently surpasses all existing state-of-the-art algorithms by a
large margin, i.e., +5.22% absolute accuracy in terms of Prec0.5 on YouRefIt.
- Abstract(参考訳): 具体化参照理解(embodied reference understanding)は、送信者の言語とジェスチャーの両方で参照される対象オブジェクトを共有物理環境で見つけるために受信者が要求される、具体化された方法での参照理解を研究する。
その主な課題は、送信者に対して、エゴセントリックビューが空間的および視覚的な情報にアクセスして、送信者、すなわち空間的および視覚的な視点テイクからオブジェクトがどのように向き付けられ、どのように見えるかを判断する方法である。
本稿では、受信機と送信機と送信機とオブジェクトの関係を、新しいビューの回転と関係推論によってモデル化することで、その課題に対処するために、あなたのパースペクティブ(REP)法による推論を提案する。
具体的には、まず、送信者の位置を原点とする実施3D座標系を構築することにより、受信機を送信者の位置に回転させる。
そして、送信者の体方向とジェスチャーを符号化することにより、受信者の方向を送信者の方向に変更する。
関係推論は, ジェスチャー, 言語, 視覚的内容, 空間的位置の多モーダル協調推論により, 送信者とオブジェクト間の非言語的・言語的関係をモデル化する。
実験の結果、REPは既存のすべての最先端アルゴリズムを常に上回り、すなわちYouRefIt上でPrec0.5の絶対精度+5.22%という結果が得られた。
関連論文リスト
- PointOBB: Learning Oriented Object Detection via Single Point
Supervision [55.88982271340328]
本稿では,オブジェクト指向物体検出のための最初の単一点ベース OBB 生成法である PointOBB を提案する。
PointOBBは、オリジナルビュー、リサイズビュー、ローテーション/フリップ(rot/flp)ビューの3つのユニークなビューの協調利用を通じて動作する。
DIOR-RとDOTA-v1.0データセットの実験結果は、PointOBBが有望な性能を達成することを示す。
論文 参考訳(メタデータ) (2023-11-23T15:51:50Z) - Binding Dancers Into Attractors [0.5801044612920815]
特徴結合と視点取りは重要な認知能力である。
両課題を解消する再帰型ニューラルネットワークモデルを提案する。
まずLSTMをトレーニングし、標準的視点から3次元運動力学を予測する。
そして、新しい視点と特徴配置を持つ類似の運動力学を提示する。
論文 参考訳(メタデータ) (2022-06-01T22:01:29Z) - The Right Spin: Learning Object Motion from Rotation-Compensated Flow
Fields [61.664963331203666]
人間がどのように動く物体を知覚するかは、コンピュータービジョンにおける長年の研究課題である。
この問題の1つのアプローチは、これらすべての効果をモデル化するためのディープネットワークを教えることである。
運動場からカメラの回転を推定する新しい確率モデルを提案する。
論文 参考訳(メタデータ) (2022-02-28T22:05:09Z) - Phrase-Based Affordance Detection via Cyclic Bilateral Interaction [17.022853987801877]
我々は、視覚言語の観点から、手当を知覚し、困難なフレーズベースの手当検出問題を考察する。
言語と視覚の特徴を段階的に整合させるために,循環的二元整合性向上ネットワーク(CBCE-Net)を提案する。
具体的には、CBCE-Netは、視覚と言語の共通した特徴を進歩的に更新する相互指導型視覚言語モジュールと、循環的に物体との相互作用の認識を容易にする循環的相互作用モジュール(CIM)から構成される。
論文 参考訳(メタデータ) (2022-02-24T13:02:27Z) - Agent-Centric Relation Graph for Object Visual Navigation [25.097165101483284]
環境の関連性に基づいて視覚表現を学習するためのエージェント・中心関係グラフ(ACRG)を提案する。
ACRGは、オブジェクト間の水平関係とエージェントとオブジェクト間の距離関係という2つの関係からなる、非常に効果的な構造である。
上記のグラフでは、エージェントは環境を認識し、ナビゲーションアクションを出力することができる。
論文 参考訳(メタデータ) (2021-11-29T10:06:31Z) - YouRefIt: Embodied Reference Understanding with Language and Gesture [95.93218436323481]
具体的参照の理解について研究する。
あるエージェントは、言語とジェスチャーの両方を使用して、共有された物理的環境でオブジェクトを別のエージェントに参照する。
クラウドソースされたYouRefItデータセットには、432の屋内シーンで4,195のユニークな参照クリップが含まれている。
論文 参考訳(メタデータ) (2021-09-08T03:27:32Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z) - Visual Relationship Detection with Visual-Linguistic Knowledge from
Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。
変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。
RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文 参考訳(メタデータ) (2020-09-10T16:15:09Z) - Object-and-Action Aware Model for Visual Language Navigation [70.33142095637515]
VLN(Vision-and-Language Navigation)は、比較的一般的な自然言語命令をロボットエージェントアクションに変換する必要があるという点で特徴的である。
本稿では、これらの2種類の自然言語に基づく命令を別々に処理するオブジェクト・アンド・アクション・アウェア・モデル(OAAM)を提案する。
これにより、各プロセスは、オブジェクト中心/アクション中心の命令を、自身の視覚的知覚/行動指向に柔軟に一致させることができる。
論文 参考訳(メタデータ) (2020-07-29T06:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。