論文の概要: What is Right for Me is Not Yet Right for You: A Dataset for Grounding
Relative Directions via Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2205.02671v1
- Date: Thu, 5 May 2022 14:25:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-06 13:38:03.590402
- Title: What is Right for Me is Not Yet Right for You: A Dataset for Grounding
Relative Directions via Multi-Task Learning
- Title(参考訳): 自分にとって正しいことはまだ正しくない:マルチタスク学習による相対方向のグラウンド化のためのデータセット
- Authors: Jae Hee Lee, Matthias Kerzel, Kyra Ahrens, Cornelius Weber and Stefan
Wermter
- Abstract要約: 終端ニューラルネットワークによる相対方向の接地問題について検討する。
GRiD-3Dは、相対方向を特徴とし、既存の視覚的質問応答(VQA)データセットを補完する新しいデータセットである。
これらのサブタスクは、相対方向を処理する直感的なパイプラインのステップを反映した順序で学習される。
- 参考スコア(独自算出の注目度): 16.538887534958555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding spatial relations is essential for intelligent agents to act
and communicate in the physical world. Relative directions are spatial
relations that describe the relative positions of target objects with regard to
the intrinsic orientation of reference objects. Grounding relative directions
is more difficult than grounding absolute directions because it not only
requires a model to detect objects in the image and to identify spatial
relation based on this information, but it also needs to recognize the
orientation of objects and integrate this information into the reasoning
process. We investigate the challenging problem of grounding relative
directions with end-to-end neural networks. To this end, we provide GRiD-3D, a
novel dataset that features relative directions and complements existing visual
question answering (VQA) datasets, such as CLEVR, that involve only absolute
directions. We also provide baselines for the dataset with two established
end-to-end VQA models. Experimental evaluations show that answering questions
on relative directions is feasible when questions in the dataset simulate the
necessary subtasks for grounding relative directions. We discover that those
subtasks are learned in an order that reflects the steps of an intuitive
pipeline for processing relative directions.
- Abstract(参考訳): 空間的関係を理解することは、知的エージェントが物理的な世界で行動しコミュニケーションするために不可欠である。
相対方向は、参照対象の固有方向に関して対象対象の相対位置を記述する空間関係である。
相対方向の接地は、画像内の物体を検出し、その情報に基づいて空間的関係を識別するためのモデルを必要とするだけでなく、物体の向きを認識し、その情報を推論プロセスに統合する必要があるため、絶対方向の接地よりも難しい。
終端ニューラルネットワークによる相対方向の接地問題について検討する。
この目的のために我々は,CLEVRなどの既存の視覚質問応答(VQA)データセットを補完する,相対方向のみを含む新しいデータセットであるGRiD-3Dを提供する。
また、2つの確立されたエンドツーエンドのVQAモデルでデータセットのベースラインを提供します。
実験により,相対方向の解答は,相対方向の解答に必要なサブタスクをシミュレートする場合に実現可能であることが示された。
これらのサブタスクは、相対方向を処理する直感的なパイプラインのステップを反映した順序で学習される。
関連論文リスト
- Where Do We Go from Here? Multi-scale Allocentric Relational Inference
from Natural Spatial Descriptions [18.736071151303726]
本稿では,Rendezvous (RVS) タスクとデータセットについて紹介する。
解析の結果、RVSは空間的同心関係のよりリッチな利用を示し、従来のテキストベースのナビゲーションベンチマークと比較すると、空間的関係を同時に解決する必要があることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-26T07:33:28Z) - EarthVQA: Towards Queryable Earth via Relational Reasoning-Based Remote
Sensing Visual Question Answering [11.37120215795946]
本研究では,多モードマルチタスクVQAデータセット(EarthVQA)を開発した。
EarthVQAデータセットには6000の画像、対応するセマンティックマスク、都市と農村のガバナンス要件を組み込んだ208,593のQAペアが含まれている。
本稿では,オブジェクト中心の方法でVQAを進めるためのセマンティックオブジェクト認識フレームワーク(SOBA)を提案する。
論文 参考訳(メタデータ) (2023-12-19T15:11:32Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - RSG-Net: Towards Rich Sematic Relationship Prediction for Intelligent
Vehicle in Complex Environments [72.04891523115535]
本稿では,オブジェクトの提案から潜在的意味関係を予測するグラフ畳み込みネットワークRSG-Netを提案する。
実験の結果、このネットワークはロードシーングラフデータセットに基づいてトレーニングされており、エゴ車両周辺のオブジェクト間の潜在的な意味関係を効率的に予測できることがわかった。
論文 参考訳(メタデータ) (2022-07-16T12:40:17Z) - Knowing Earlier what Right Means to You: A Comprehensive VQA Dataset for
Grounding Relative Directions via Multi-Task Learning [16.538887534958555]
GRiD-A-3Dは,抽象オブジェクトに基づく新しい視覚的質問応答データセットである。
我々のデータセットは、相対的な方向へのエンド・ツー・エンドのVQAモデルの機能を詳細に分析することを可能にする。
幾つかのエポックにおいて、相対方向を判断するために必要なサブタスクが、相対方向を直感的に処理する順序で学習されることを実証する。
論文 参考訳(メタデータ) (2022-07-06T12:31:49Z) - Unpaired Referring Expression Grounding via Bidirectional Cross-Modal
Matching [53.27673119360868]
表現基盤の参照はコンピュータビジョンにおいて重要かつ困難な課題である。
本稿では,これらの課題に対処する新しい双方向クロスモーダルマッチング(BiCM)フレームワークを提案する。
私たちのフレームワークは、2つの一般的なグラウンドデータセットで、以前の作業の6.55%と9.94%を上回っています。
論文 参考訳(メタデータ) (2022-01-18T01:13:19Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - Exploiting Scene-specific Features for Object Goal Navigation [9.806910643086043]
ナビゲーションモデルのトレーニングを高速化するデータセットを新たに導入する。
提案したデータセットは,オンライン構築マップを合理的な時間で活用しないモデルのトレーニングを可能にする。
本研究では,SMTSCモデルを提案する。
論文 参考訳(メタデータ) (2020-08-21T10:16:01Z) - Grounded Situation Recognition [56.18102368133022]
画像の構造的要約を生成することを必要とする課題であるグラウンドドコンディション認識(GSR)を導入する。
GSRはセマンティック・サリエンシの識別、大規模で多様なエンティティの分類とローカライズという重要な技術的課題を提示している。
我々は,条件付きクエリ,視覚連鎖,接地型セマンティック・アウェアネス・イメージ検索の3つのモデルによって実現される3つの将来方向について,最初の知見を示す。
論文 参考訳(メタデータ) (2020-03-26T17:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。