論文の概要: Spatial and Visual Perspective-Taking via View Rotation and Relation
Reasoning for Embodied Reference Understanding
- arxiv url: http://arxiv.org/abs/2309.01073v1
- Date: Sun, 3 Sep 2023 04:28:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 23:29:04.608130
- Title: Spatial and Visual Perspective-Taking via View Rotation and Relation
Reasoning for Embodied Reference Understanding
- Title(参考訳): 身体的参照理解のための視線回転と関係推論による空間的・視覚的パースペクティブテイキング
- Authors: Cheng Shi and Sibei Yang
- Abstract要約: 身体的参照理解(Embodied Reference Understanding)は、身体的方法での参照理解を研究する。
主な課題は、エゴセントリックな視点で空間情報や視覚情報にアクセスできるようにする方法である。
本稿では,この課題に対処するため,Reasoning from your Perspective (REP)法を提案する。
- 参考スコア(独自算出の注目度): 28.983503845298824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied Reference Understanding studies the reference understanding in an
embodied fashion, where a receiver is required to locate a target object
referred to by both language and gesture of the sender in a shared physical
environment. Its main challenge lies in how to make the receiver with the
egocentric view access spatial and visual information relative to the sender to
judge how objects are oriented around and seen from the sender, i.e., spatial
and visual perspective-taking. In this paper, we propose a REasoning from your
Perspective (REP) method to tackle the challenge by modeling relations between
the receiver and the sender and the sender and the objects via the proposed
novel view rotation and relation reasoning. Specifically, view rotation first
rotates the receiver to the position of the sender by constructing an embodied
3D coordinate system with the position of the sender as the origin. Then, it
changes the orientation of the receiver to the orientation of the sender by
encoding the body orientation and gesture of the sender. Relation reasoning
models the nonverbal and verbal relations between the sender and the objects by
multi-modal cooperative reasoning in gesture, language, visual content, and
spatial position. Experiment results demonstrate the effectiveness of REP,
which consistently surpasses all existing state-of-the-art algorithms by a
large margin, i.e., +5.22% absolute accuracy in terms of Prec0.5 on YouRefIt.
- Abstract(参考訳): 具体化参照理解(embodied reference understanding)は、送信者の言語とジェスチャーの両方で参照される対象オブジェクトを共有物理環境で見つけるために受信者が要求される、具体化された方法での参照理解を研究する。
その主な課題は、送信者に対して、エゴセントリックビューが空間的および視覚的な情報にアクセスして、送信者、すなわち空間的および視覚的な視点テイクからオブジェクトがどのように向き付けられ、どのように見えるかを判断する方法である。
本稿では、受信機と送信機と送信機とオブジェクトの関係を、新しいビューの回転と関係推論によってモデル化することで、その課題に対処するために、あなたのパースペクティブ(REP)法による推論を提案する。
具体的には、まず、送信者の位置を原点とする実施3D座標系を構築することにより、受信機を送信者の位置に回転させる。
そして、送信者の体方向とジェスチャーを符号化することにより、受信者の方向を送信者の方向に変更する。
関係推論は, ジェスチャー, 言語, 視覚的内容, 空間的位置の多モーダル協調推論により, 送信者とオブジェクト間の非言語的・言語的関係をモデル化する。
実験の結果、REPは既存のすべての最先端アルゴリズムを常に上回り、すなわちYouRefIt上でPrec0.5の絶対精度+5.22%という結果が得られた。
関連論文リスト
- OrientedFormer: An End-to-End Transformer-Based Oriented Object Detector in Remote Sensing Images [26.37802649901314]
リモートセンシング画像におけるオブジェクト指向物体検出は、複数方向のオブジェクトが分散しているため、難しい課題である。
これらの問題に対処する3つの専用モジュールからなるエンドツーエンドのトランスフォーマベース指向オブジェクト検出器を提案する。
従来のエンドツーエンド検出器と比較して、OrientedFormerはDIOR-RとDOTA-v1.0でそれぞれ1.16および1.21 AP$_50$を獲得し、トレーニングエポックを3$times$から1$times$に下げる。
論文 参考訳(メタデータ) (2024-09-29T10:36:33Z) - End-to-end Open-vocabulary Video Visual Relationship Detection using Multi-modal Prompting [68.37943632270505]
Open-vocabulary video visual relationship detectionは、ビデオの視覚的関係の検出をカテゴリを超えて拡張することを目的としている。
既存の方法は、通常、閉じたデータセットで訓練された軌跡検出器を使用して物体の軌跡を検出する。
我々はCLIPの豊富な意味的知識を活用して新しい関係を発見するオープン語彙関係を提案する。
論文 参考訳(メタデータ) (2024-09-19T06:25:01Z) - PointOBB: Learning Oriented Object Detection via Single Point
Supervision [55.88982271340328]
本稿では,オブジェクト指向物体検出のための最初の単一点ベース OBB 生成法である PointOBB を提案する。
PointOBBは、オリジナルビュー、リサイズビュー、ローテーション/フリップ(rot/flp)ビューの3つのユニークなビューの協調利用を通じて動作する。
DIOR-RとDOTA-v1.0データセットの実験結果は、PointOBBが有望な性能を達成することを示す。
論文 参考訳(メタデータ) (2023-11-23T15:51:50Z) - Phrase-Based Affordance Detection via Cyclic Bilateral Interaction [17.022853987801877]
我々は、視覚言語の観点から、手当を知覚し、困難なフレーズベースの手当検出問題を考察する。
言語と視覚の特徴を段階的に整合させるために,循環的二元整合性向上ネットワーク(CBCE-Net)を提案する。
具体的には、CBCE-Netは、視覚と言語の共通した特徴を進歩的に更新する相互指導型視覚言語モジュールと、循環的に物体との相互作用の認識を容易にする循環的相互作用モジュール(CIM)から構成される。
論文 参考訳(メタデータ) (2022-02-24T13:02:27Z) - Agent-Centric Relation Graph for Object Visual Navigation [25.097165101483284]
環境の関連性に基づいて視覚表現を学習するためのエージェント・中心関係グラフ(ACRG)を提案する。
ACRGは、オブジェクト間の水平関係とエージェントとオブジェクト間の距離関係という2つの関係からなる、非常に効果的な構造である。
上記のグラフでは、エージェントは環境を認識し、ナビゲーションアクションを出力することができる。
論文 参考訳(メタデータ) (2021-11-29T10:06:31Z) - YouRefIt: Embodied Reference Understanding with Language and Gesture [95.93218436323481]
具体的参照の理解について研究する。
あるエージェントは、言語とジェスチャーの両方を使用して、共有された物理的環境でオブジェクトを別のエージェントに参照する。
クラウドソースされたYouRefItデータセットには、432の屋内シーンで4,195のユニークな参照クリップが含まれている。
論文 参考訳(メタデータ) (2021-09-08T03:27:32Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z) - Visual Relationship Detection with Visual-Linguistic Knowledge from
Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。
変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。
RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文 参考訳(メタデータ) (2020-09-10T16:15:09Z) - Object-and-Action Aware Model for Visual Language Navigation [70.33142095637515]
VLN(Vision-and-Language Navigation)は、比較的一般的な自然言語命令をロボットエージェントアクションに変換する必要があるという点で特徴的である。
本稿では、これらの2種類の自然言語に基づく命令を別々に処理するオブジェクト・アンド・アクション・アウェア・モデル(OAAM)を提案する。
これにより、各プロセスは、オブジェクト中心/アクション中心の命令を、自身の視覚的知覚/行動指向に柔軟に一致させることができる。
論文 参考訳(メタデータ) (2020-07-29T06:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。