論文の概要: Knowing Earlier what Right Means to You: A Comprehensive VQA Dataset for
Grounding Relative Directions via Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2207.02624v1
- Date: Wed, 6 Jul 2022 12:31:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-07 19:39:13.527656
- Title: Knowing Earlier what Right Means to You: A Comprehensive VQA Dataset for
Grounding Relative Directions via Multi-Task Learning
- Title(参考訳): 正しい意味を早期に知る:マルチタスク学習による相対方向の接地のための総合的VQAデータセット
- Authors: Kyra Ahrens, Matthias Kerzel, Jae Hee Lee, Cornelius Weber, Stefan
Wermter
- Abstract要約: GRiD-A-3Dは,抽象オブジェクトに基づく新しい視覚的質問応答データセットである。
我々のデータセットは、相対的な方向へのエンド・ツー・エンドのVQAモデルの機能を詳細に分析することを可能にする。
幾つかのエポックにおいて、相対方向を判断するために必要なサブタスクが、相対方向を直感的に処理する順序で学習されることを実証する。
- 参考スコア(独自算出の注目度): 16.538887534958555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial reasoning poses a particular challenge for intelligent agents and is
at the same time a prerequisite for their successful interaction and
communication in the physical world. One such reasoning task is to describe the
position of a target object with respect to the intrinsic orientation of some
reference object via relative directions. In this paper, we introduce
GRiD-A-3D, a novel diagnostic visual question-answering (VQA) dataset based on
abstract objects. Our dataset allows for a fine-grained analysis of end-to-end
VQA models' capabilities to ground relative directions. At the same time, model
training requires considerably fewer computational resources compared with
existing datasets, yet yields a comparable or even higher performance. Along
with the new dataset, we provide a thorough evaluation based on two widely
known end-to-end VQA architectures trained on GRiD-A-3D. We demonstrate that
within a few epochs, the subtasks required to reason over relative directions,
such as recognizing and locating objects in a scene and estimating their
intrinsic orientations, are learned in the order in which relative directions
are intuitively processed.
- Abstract(参考訳): 空間的推論は知的エージェントにとって特別な課題であり、物理的世界での対話とコミュニケーションを成功させるための前提条件である。
そのような推論課題の1つは、ある参照対象の固有方向に関する対象対象の位置を相対方向を通じて記述することである。
本稿では,抽象オブジェクトに基づく新しい診断ビジュアル質問応答(vqa)データセットgrid-a-3dを提案する。
我々のデータセットは、相対方向に対するエンドツーエンドのVQAモデルの機能を詳細に分析することを可能にする。
同時に、モデルトレーニングは既存のデータセットに比べて計算リソースをかなり少なくするが、同等あるいはそれ以上のパフォーマンスが得られる。
新しいデータセットとともに、grid-a-3dでトレーニングされた2つの広く知られたエンドツーエンドvqaアーキテクチャに基づく詳細な評価を提供する。
本研究では,シーン内の物体の認識や位置推定,固有方向の推定など,相対方向の判断に必要なサブタスクが,相対方向が直感的に処理される順序で学習されることを実証する。
関連論文リスト
- A Modern Take on Visual Relationship Reasoning for Grasp Planning [10.543168383800532]
本稿では,視覚的リレーショナル推論による把握計画を提案する。
D3GDは、97の異なるカテゴリから最大35のオブジェクトを持つビンピックシーンを含む、新しいテストベッドである。
また、新しいエンドツーエンドのトランスフォーマーベースの依存性グラフ生成モデルであるD3Gを提案する。
論文 参考訳(メタデータ) (2024-09-03T16:30:48Z) - Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。
また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文 参考訳(メタデータ) (2024-05-13T14:44:22Z) - EarthVQA: Towards Queryable Earth via Relational Reasoning-Based Remote
Sensing Visual Question Answering [11.37120215795946]
本研究では,多モードマルチタスクVQAデータセット(EarthVQA)を開発した。
EarthVQAデータセットには6000の画像、対応するセマンティックマスク、都市と農村のガバナンス要件を組み込んだ208,593のQAペアが含まれている。
本稿では,オブジェクト中心の方法でVQAを進めるためのセマンティックオブジェクト認識フレームワーク(SOBA)を提案する。
論文 参考訳(メタデータ) (2023-12-19T15:11:32Z) - Weakly-supervised 3D Pose Transfer with Keypoints [57.66991032263699]
3Dポーズ転送の主な課題は、1) 異なる文字で同じポーズを行うペアトレーニングデータの欠如、2) ターゲットメッシュからポーズと形状情報を分離すること、3) 異なるトポロジを持つメッシュに適用することの難しさである。
本稿では,これらの課題を克服するためのキーポイントベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T12:40:24Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - Towards Explainable 3D Grounded Visual Question Answering: A New
Benchmark and Strong Baseline [35.717047755880536]
3次元視覚的質問応答(VQA)タスクは、あまり利用されず、言語の先行や参照のあいまいさにもより影響を受けやすい。
我々は、多様で比較的自由な質問応答ペアを備えた新しい3D VQAデータセットと、密集した完全に接地されたバウンディングボックスアノテーションを収集する。
完全視覚的かつ説明可能な答えを効果的に予測する3D VQAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-24T15:09:02Z) - What is Right for Me is Not Yet Right for You: A Dataset for Grounding
Relative Directions via Multi-Task Learning [16.538887534958555]
終端ニューラルネットワークによる相対方向の接地問題について検討する。
GRiD-3Dは、相対方向を特徴とし、既存の視覚的質問応答(VQA)データセットを補完する新しいデータセットである。
これらのサブタスクは、相対方向を処理する直感的なパイプラインのステップを反映した順序で学習される。
論文 参考訳(メタデータ) (2022-05-05T14:25:46Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - Exploiting Scene-specific Features for Object Goal Navigation [9.806910643086043]
ナビゲーションモデルのトレーニングを高速化するデータセットを新たに導入する。
提案したデータセットは,オンライン構築マップを合理的な時間で活用しないモデルのトレーニングを可能にする。
本研究では,SMTSCモデルを提案する。
論文 参考訳(メタデータ) (2020-08-21T10:16:01Z) - Dynamic Refinement Network for Oriented and Densely Packed Object
Detection [75.29088991850958]
本稿では,機能選択モジュール (FSM) と動的改善ヘッド (DRH) の2つの新しいコンポーネントからなる動的精細化ネットワークを提案する。
我々のFSMは、ニューロンがターゲットオブジェクトの形状や向きに応じて受容野を調整できるのに対して、DRHはオブジェクト認識の方法で動的に予測を洗練させる。
我々は、DOTA、HRSC2016、SKU110K、および我々のSKU110K-Rデータセットを含むいくつかの公開ベンチマークで定量的評価を行う。
論文 参考訳(メタデータ) (2020-05-20T11:35:50Z) - Knowledge as Priors: Cross-Modal Knowledge Generalization for Datasets
without Superior Knowledge [55.32035138692167]
クロスモーダルな知識蒸留は、優れたモーダルで訓練されたモデルから弱いモーダルで訓練された別のモデルに知識を移すことを扱う。
本研究では,教師が利用できないターゲットデータセットにおいて,生徒を訓練するための新しいスキームを提案する。
論文 参考訳(メタデータ) (2020-04-01T00:28:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。