Fugu-MT 論文翻訳(概要): Spatial and Visual Perspective-Taking via View Rotation and Relation Reasoning for Embodied Reference Understanding

論文の概要: Spatial and Visual Perspective-Taking via View Rotation and Relation Reasoning for Embodied Reference Understanding

arxiv url: http://arxiv.org/abs/2309.01073v1
Date: Sun, 3 Sep 2023 04:28:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-06 23:29:04.608130
Title: Spatial and Visual Perspective-Taking via View Rotation and Relation Reasoning for Embodied Reference Understanding
Title（参考訳）: 身体的参照理解のための視線回転と関係推論による空間的・視覚的パースペクティブテイキング
Authors: Cheng Shi and Sibei Yang
Abstract要約: 身体的参照理解(Embodied Reference Understanding)は、身体的方法での参照理解を研究する。主な課題は、エゴセントリックな視点で空間情報や視覚情報にアクセスできるようにする方法である。本稿では,この課題に対処するため,Reasoning from your Perspective (REP)法を提案する。
参考スコア（独自算出の注目度）: 28.983503845298824
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Embodied Reference Understanding studies the reference understanding in an embodied fashion, where a receiver is required to locate a target object referred to by both language and gesture of the sender in a shared physical environment. Its main challenge lies in how to make the receiver with the egocentric view access spatial and visual information relative to the sender to judge how objects are oriented around and seen from the sender, i.e., spatial and visual perspective-taking. In this paper, we propose a REasoning from your Perspective (REP) method to tackle the challenge by modeling relations between the receiver and the sender and the sender and the objects via the proposed novel view rotation and relation reasoning. Specifically, view rotation first rotates the receiver to the position of the sender by constructing an embodied 3D coordinate system with the position of the sender as the origin. Then, it changes the orientation of the receiver to the orientation of the sender by encoding the body orientation and gesture of the sender. Relation reasoning models the nonverbal and verbal relations between the sender and the objects by multi-modal cooperative reasoning in gesture, language, visual content, and spatial position. Experiment results demonstrate the effectiveness of REP, which consistently surpasses all existing state-of-the-art algorithms by a large margin, i.e., +5.22% absolute accuracy in terms of Prec0.5 on YouRefIt.
Abstract（参考訳）: 具体化参照理解(embodied reference understanding)は、送信者の言語とジェスチャーの両方で参照される対象オブジェクトを共有物理環境で見つけるために受信者が要求される、具体化された方法での参照理解を研究する。その主な課題は、送信者に対して、エゴセントリックビューが空間的および視覚的な情報にアクセスして、送信者、すなわち空間的および視覚的な視点テイクからオブジェクトがどのように向き付けられ、どのように見えるかを判断する方法である。本稿では、受信機と送信機と送信機とオブジェクトの関係を、新しいビューの回転と関係推論によってモデル化することで、その課題に対処するために、あなたのパースペクティブ(REP)法による推論を提案する。具体的には、まず、送信者の位置を原点とする実施3D座標系を構築することにより、受信機を送信者の位置に回転させる。そして、送信者の体方向とジェスチャーを符号化することにより、受信者の方向を送信者の方向に変更する。関係推論は, ジェスチャー, 言語, 視覚的内容, 空間的位置の多モーダル協調推論により, 送信者とオブジェクト間の非言語的・言語的関係をモデル化する。実験の結果、REPは既存のすべての最先端アルゴリズムを常に上回り、すなわちYouRefIt上でPrec0.5の絶対精度+5.22%という結果が得られた。

関連論文リスト

Right Side Up? Disentangling Orientation Understanding in MLLMs with Fine-grained Multi-axis Perception Tasks [17.357441373079382]
本稿では,オブジェクト指向認識を主評価対象とするベンチマークであるDORI(Discriminative Orientation Reasoning Intelligence)を紹介する。 DORIは、正面アライメント、回転変換、相対方向関係、標準方向理解の4つの次元を評価する。最先端の視覚言語モデル15について評価した結果,限界が明らかとなった。 DORIは、ロボット制御の改善、3Dシーン再構築、物理的環境における人間とAIの相互作用に影響を及ぼす。
論文参考訳（メタデータ） (2025-05-27T18:22:44Z)
Off-Policy Evaluation for Sequential Persuasion Process with Unobserved Confounding [2.7282382992043885]
現実のシナリオは、しばしば受信者の信念の形成と意思決定に影響を与える隠された変数を含む。我々はこれをシーケンシャルな意思決定問題として概念化し、送信側と受信側が複数のラウンドで対話する。このシナリオを部分観測可能なマルコフ決定プロセス (POMDP) として再構成することにより、受信者の信念と観測不能な共同創設者の両方のダイナミクスに関する不完全な情報をキャプチャする。
論文参考訳（メタデータ） (2025-04-01T21:50:32Z)
A Communication Framework for Compositional Generation [0.7578439720012189]
合成エンコーディングを作成するための自己教師型生成型コミュニケーションゲームベースのフレームワークを提案する。我々のフレームワークは、エンコーディングにおける効率性、曖昧性、非ホリスティック性の概念を定義し、バランスをとるという厳密な正当化と証明に基づいている。
論文参考訳（メタデータ） (2025-01-31T14:46:11Z)
ObjectRelator: Enabling Cross-View Object Relation Understanding Across Ego-Centric and Exo-Centric Perspectives [109.11714588441511]
Ego-Exoオブジェクト対応タスクは,セグメンテーションを通じて,ego-Exoパースペクティブ間のオブジェクト関係を理解することを目的としている。最近提案されたセグメンテーション手法であるPSALMは、このタスクでデモされたゼロショット能力を例外として挙げている。我々は、マルチモーダルコンディションフュージョンとSSLベースのクロスビューオブジェクトアライメントという、2つの重要なモジュールを特徴とする新しいアプローチであるObjectRelatorを提案する。
論文参考訳（メタデータ） (2024-11-28T12:01:03Z)
OrientedFormer: An End-to-End Transformer-Based Oriented Object Detector in Remote Sensing Images [26.37802649901314]
リモートセンシング画像におけるオブジェクト指向物体検出は、複数方向のオブジェクトが分散しているため、難しい課題である。これらの問題に対処する3つの専用モジュールからなるエンドツーエンドのトランスフォーマベース指向オブジェクト検出器を提案する。従来のエンドツーエンド検出器と比較して、OrientedFormerはDIOR-RとDOTA-v1.0でそれぞれ1.16および1.21 AP$_50$を獲得し、トレーニングエポックを3$times$から1$times$に下げる。
論文参考訳（メタデータ） (2024-09-29T10:36:33Z)
End-to-end Open-vocabulary Video Visual Relationship Detection using Multi-modal Prompting [68.37943632270505]
Open-vocabulary video visual relationship detectionは、ビデオの視覚的関係の検出をカテゴリを超えて拡張することを目的としている。既存の方法は、通常、閉じたデータセットで訓練された軌跡検出器を使用して物体の軌跡を検出する。我々はCLIPの豊富な意味的知識を活用して新しい関係を発見するオープン語彙関係を提案する。
論文参考訳（メタデータ） (2024-09-19T06:25:01Z)
PointOBB: Learning Oriented Object Detection via Single Point Supervision [55.88982271340328]
本稿では,オブジェクト指向物体検出のための最初の単一点ベース OBB 生成法である PointOBB を提案する。 PointOBBは、オリジナルビュー、リサイズビュー、ローテーション/フリップ(rot/flp)ビューの3つのユニークなビューの協調利用を通じて動作する。 DIOR-RとDOTA-v1.0データセットの実験結果は、PointOBBが有望な性能を達成することを示す。
論文参考訳（メタデータ） (2023-11-23T15:51:50Z)
Phrase-Based Affordance Detection via Cyclic Bilateral Interaction [17.022853987801877]
我々は、視覚言語の観点から、手当を知覚し、困難なフレーズベースの手当検出問題を考察する。言語と視覚の特徴を段階的に整合させるために,循環的二元整合性向上ネットワーク(CBCE-Net)を提案する。具体的には、CBCE-Netは、視覚と言語の共通した特徴を進歩的に更新する相互指導型視覚言語モジュールと、循環的に物体との相互作用の認識を容易にする循環的相互作用モジュール(CIM)から構成される。
論文参考訳（メタデータ） (2022-02-24T13:02:27Z)
Agent-Centric Relation Graph for Object Visual Navigation [25.097165101483284]
環境の関連性に基づいて視覚表現を学習するためのエージェント・中心関係グラフ(ACRG)を提案する。 ACRGは、オブジェクト間の水平関係とエージェントとオブジェクト間の距離関係という2つの関係からなる、非常に効果的な構造である。上記のグラフでは、エージェントは環境を認識し、ナビゲーションアクションを出力することができる。
論文参考訳（メタデータ） (2021-11-29T10:06:31Z)
YouRefIt: Embodied Reference Understanding with Language and Gesture [95.93218436323481]
具体的参照の理解について研究する。あるエージェントは、言語とジェスチャーの両方を使用して、共有された物理的環境でオブジェクトを別のエージェントに参照する。クラウドソースされたYouRefItデータセットには、432の屋内シーンで4,195のユニークな参照クリップが含まれている。
論文参考訳（メタデータ） (2021-09-08T03:27:32Z)
SIRI: Spatial Relation Induced Network For Spatial Description Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文参考訳（メタデータ） (2020-10-27T14:04:05Z)
Visual Relationship Detection with Visual-Linguistic Knowledge from Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。 RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文参考訳（メタデータ） (2020-09-10T16:15:09Z)
Object-and-Action Aware Model for Visual Language Navigation [70.33142095637515]
VLN(Vision-and-Language Navigation)は、比較的一般的な自然言語命令をロボットエージェントアクションに変換する必要があるという点で特徴的である。本稿では、これらの2種類の自然言語に基づく命令を別々に処理するオブジェクト・アンド・アクション・アウェア・モデル(OAAM)を提案する。これにより、各プロセスは、オブジェクト中心/アクション中心の命令を、自身の視覚的知覚/行動指向に柔軟に一致させることができる。
論文参考訳（メタデータ） (2020-07-29T06:32:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。