論文の概要: What is Right for Me is Not Yet Right for You: A Dataset for Grounding
Relative Directions via Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2205.02671v1
- Date: Thu, 5 May 2022 14:25:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-06 13:38:03.590402
- Title: What is Right for Me is Not Yet Right for You: A Dataset for Grounding
Relative Directions via Multi-Task Learning
- Title(参考訳): 自分にとって正しいことはまだ正しくない:マルチタスク学習による相対方向のグラウンド化のためのデータセット
- Authors: Jae Hee Lee, Matthias Kerzel, Kyra Ahrens, Cornelius Weber and Stefan
Wermter
- Abstract要約: 終端ニューラルネットワークによる相対方向の接地問題について検討する。
GRiD-3Dは、相対方向を特徴とし、既存の視覚的質問応答(VQA)データセットを補完する新しいデータセットである。
これらのサブタスクは、相対方向を処理する直感的なパイプラインのステップを反映した順序で学習される。
- 参考スコア(独自算出の注目度): 16.538887534958555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding spatial relations is essential for intelligent agents to act
and communicate in the physical world. Relative directions are spatial
relations that describe the relative positions of target objects with regard to
the intrinsic orientation of reference objects. Grounding relative directions
is more difficult than grounding absolute directions because it not only
requires a model to detect objects in the image and to identify spatial
relation based on this information, but it also needs to recognize the
orientation of objects and integrate this information into the reasoning
process. We investigate the challenging problem of grounding relative
directions with end-to-end neural networks. To this end, we provide GRiD-3D, a
novel dataset that features relative directions and complements existing visual
question answering (VQA) datasets, such as CLEVR, that involve only absolute
directions. We also provide baselines for the dataset with two established
end-to-end VQA models. Experimental evaluations show that answering questions
on relative directions is feasible when questions in the dataset simulate the
necessary subtasks for grounding relative directions. We discover that those
subtasks are learned in an order that reflects the steps of an intuitive
pipeline for processing relative directions.
- Abstract(参考訳): 空間的関係を理解することは、知的エージェントが物理的な世界で行動しコミュニケーションするために不可欠である。
相対方向は、参照対象の固有方向に関して対象対象の相対位置を記述する空間関係である。
相対方向の接地は、画像内の物体を検出し、その情報に基づいて空間的関係を識別するためのモデルを必要とするだけでなく、物体の向きを認識し、その情報を推論プロセスに統合する必要があるため、絶対方向の接地よりも難しい。
終端ニューラルネットワークによる相対方向の接地問題について検討する。
この目的のために我々は,CLEVRなどの既存の視覚質問応答(VQA)データセットを補完する,相対方向のみを含む新しいデータセットであるGRiD-3Dを提供する。
また、2つの確立されたエンドツーエンドのVQAモデルでデータセットのベースラインを提供します。
実験により,相対方向の解答は,相対方向の解答に必要なサブタスクをシミュレートする場合に実現可能であることが示された。
これらのサブタスクは、相対方向を処理する直感的なパイプラインのステップを反映した順序で学習される。
関連論文リスト
- Space3D-Bench: Spatial 3D Question Answering Benchmark [49.259397521459114]
Space3D-Benchは、Replicaデータセットのシーンに関連する1000の一般的な空間的質問と回答の集合である。
本研究では,事前定義された接地真実解に基づいて,自然言語応答を評価評価するシステムを提案する。
最後に,基礎モデルの世界理解をリッチな文脈検索と統合したRAG3D-Chatというベースラインを導入する。
論文 参考訳(メタデータ) (2024-08-29T16:05:22Z) - DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - Where Do We Go from Here? Multi-scale Allocentric Relational Inference from Natural Spatial Descriptions [18.736071151303726]
本稿では,Rendezvous (RVS) タスクとデータセットについて紹介する。
解析の結果、RVSは空間的同心関係のよりリッチな利用を示し、従来のテキストベースのナビゲーションベンチマークと比較すると、空間的関係を同時に解決する必要があることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-26T07:33:28Z) - EarthVQA: Towards Queryable Earth via Relational Reasoning-Based Remote
Sensing Visual Question Answering [11.37120215795946]
本研究では,多モードマルチタスクVQAデータセット(EarthVQA)を開発した。
EarthVQAデータセットには6000の画像、対応するセマンティックマスク、都市と農村のガバナンス要件を組み込んだ208,593のQAペアが含まれている。
本稿では,オブジェクト中心の方法でVQAを進めるためのセマンティックオブジェクト認識フレームワーク(SOBA)を提案する。
論文 参考訳(メタデータ) (2023-12-19T15:11:32Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - RSG-Net: Towards Rich Sematic Relationship Prediction for Intelligent
Vehicle in Complex Environments [72.04891523115535]
本稿では,オブジェクトの提案から潜在的意味関係を予測するグラフ畳み込みネットワークRSG-Netを提案する。
実験の結果、このネットワークはロードシーングラフデータセットに基づいてトレーニングされており、エゴ車両周辺のオブジェクト間の潜在的な意味関係を効率的に予測できることがわかった。
論文 参考訳(メタデータ) (2022-07-16T12:40:17Z) - Knowing Earlier what Right Means to You: A Comprehensive VQA Dataset for
Grounding Relative Directions via Multi-Task Learning [16.538887534958555]
GRiD-A-3Dは,抽象オブジェクトに基づく新しい視覚的質問応答データセットである。
我々のデータセットは、相対的な方向へのエンド・ツー・エンドのVQAモデルの機能を詳細に分析することを可能にする。
幾つかのエポックにおいて、相対方向を判断するために必要なサブタスクが、相対方向を直感的に処理する順序で学習されることを実証する。
論文 参考訳(メタデータ) (2022-07-06T12:31:49Z) - Unpaired Referring Expression Grounding via Bidirectional Cross-Modal
Matching [53.27673119360868]
表現基盤の参照はコンピュータビジョンにおいて重要かつ困難な課題である。
本稿では,これらの課題に対処する新しい双方向クロスモーダルマッチング(BiCM)フレームワークを提案する。
私たちのフレームワークは、2つの一般的なグラウンドデータセットで、以前の作業の6.55%と9.94%を上回っています。
論文 参考訳(メタデータ) (2022-01-18T01:13:19Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - Exploiting Scene-specific Features for Object Goal Navigation [9.806910643086043]
ナビゲーションモデルのトレーニングを高速化するデータセットを新たに導入する。
提案したデータセットは,オンライン構築マップを合理的な時間で活用しないモデルのトレーニングを可能にする。
本研究では,SMTSCモデルを提案する。
論文 参考訳(メタデータ) (2020-08-21T10:16:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。