論文の概要: Point and Ask: Incorporating Pointing into Visual Question Answering
- arxiv url: http://arxiv.org/abs/2011.13681v4
- Date: Fri, 18 Feb 2022 05:50:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 02:24:17.531057
- Title: Point and Ask: Incorporating Pointing into Visual Question Answering
- Title(参考訳): ポイントと質問:視覚的質問応答へのポイントの導入
- Authors: Arjun Mani, Nobline Yoo, Will Hinthorn, Olga Russakovsky
- Abstract要約: VQA(Visual Question Answering)の拡張として,ポイントインプット質問の導入と動機付けを行う。
ポインティングは人間にとってほぼ普遍的なジェスチャーであり、現実世界のVQAはターゲット領域へのジェスチャーを含む可能性が高い。
我々は、人間の意図を推測する能力を含む、いくつかの視覚的認識課題を発見し、対処する。
- 参考スコア(独自算出の注目度): 14.744503080484977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering (VQA) has become one of the key benchmarks of
visual recognition progress. Multiple VQA extensions have been explored to
better simulate real-world settings: different question formulations, changing
training and test distributions, conversational consistency in dialogues, and
explanation-based answering. In this work, we further expand this space by
considering visual questions that include a spatial point of reference.
Pointing is a nearly universal gesture among humans, and real-world VQA is
likely to involve a gesture towards the target region.
Concretely, we (1) introduce and motivate point-input questions as an
extension of VQA, (2) define three novel classes of questions within this
space, and (3) for each class, introduce both a benchmark dataset and a series
of baseline models to handle its unique challenges. There are two key
distinctions from prior work. First, we explicitly design the benchmarks to
require the point input, i.e., we ensure that the visual question cannot be
answered accurately without the spatial reference. Second, we explicitly
explore the more realistic point spatial input rather than the standard but
unnatural bounding box input. Through our exploration we uncover and address
several visual recognition challenges, including the ability to infer human
intent, reason both locally and globally about the image, and effectively
combine visual, language and spatial inputs. Code is available at:
https://github.com/princetonvisualai/pointingqa .
- Abstract(参考訳): VQA(Visual Question Answering)は、視覚認識の進歩の鍵となるベンチマークの一つである。
複数のVQA拡張は、異なる質問の定式化、トレーニングとテストの分散の変更、対話における会話の一貫性、説明に基づく回答など、現実世界の設定をより良くシミュレートするために検討されている。
本研究では,空間的参照点を含む視覚的質問を考慮し,この空間をさらに拡張する。
ポインティングは人間にとってほぼ普遍的なジェスチャーであり、現実世界のVQAはターゲット領域へのジェスチャーを含む可能性が高い。
具体的には,(1)VQAの拡張としてポイントインプット質問を導入・動機づけ,(2)この分野における3つの新しい質問クラスを定義し,(3)各クラスに対してベンチマークデータセットと一連のベースラインモデルを導入し,そのユニークな課題に対処する。
先行研究とは2つの重要な違いがある。
まず,空間参照なしでは視覚的疑問に正確に答えられないように,点入力を必要とするベンチマークを明示的に設計する。
第2に、標準だが不自然な境界ボックス入力よりも、より現実的な点空間入力を明示的に探究する。
探索を通じて、人間の意図を推測する能力、画像について局所的およびグローバルに推論する能力、視覚的、言語的、空間的な入力を効果的に組み合わせることなど、視覚的認識の課題を明らかにし、解決する。
コードは、https://github.com/princetonvisualai/pointingqa で入手できる。
関連論文リスト
- Accounting for Focus Ambiguity in Visual Questions [14.696389149373994]
VQ-FocusAmbiguityは最初のVQAデータセットで、答えに到達するのに必要な質問で記述された各領域を視覚的にグラウンド化する。
視覚的疑問があいまいさに焦点を合わせているかどうかを認識し、画像内のすべての可視的焦点領域をローカライズする。
論文 参考訳(メタデータ) (2025-01-04T05:36:11Z) - Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z) - From Pixels to Objects: Cubic Visual Attention for Visual Question
Answering [132.95819467484517]
近年,注目度に基づく視覚質問応答 (VQA) は,質問を利用して回答に関連する異なる視覚領域をターゲットにすることで大きな成功を収めている。
本稿では、VQAタスクを改善するために、新しいチャネルと空間的注意をオブジェクト領域に適用し、キュービック視覚注意(CVA)モデルを提案する。
実験の結果,提案手法は最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2022-06-04T07:03:18Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - Unified Questioner Transformer for Descriptive Question Generation in
Goal-Oriented Visual Dialogue [0.0]
現実世界について質問できる対話型人工知能の構築は、ビジョンと言語問題における最大の課題の1つだ。
我々はUnified Questioner Transformer (UniQer) と呼ばれる新しい問合せアーキテクチャを提案する。
我々は、CLEVR Askと呼ばれる目標指向の視覚対話タスクを構築し、質問者に対して説明的質問を生成する複雑なシーンを合成する。
論文 参考訳(メタデータ) (2021-06-29T16:36:34Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Spatially Aware Multimodal Transformers for TextVQA [61.01618988620582]
我々はTextVQAタスク、すなわち画像中のテキストを推論して質問に答えるタスクについて研究する。
既存のアプローチは空間関係の使用に限られている。
空間認識型自己注意層を提案する。
論文 参考訳(メタデータ) (2020-07-23T17:20:55Z) - In Defense of Grid Features for Visual Question Answering [65.71985794097426]
視覚的質問応答(VQA)のためのグリッド機能を再検討し、驚くほどうまく機能することを発見した。
我々は、この観測が様々なVQAモデルに当てはまることを検証し、画像キャプションのような他のタスクによく当てはまることを検証した。
VQAモデルは、ピクセルから直接回答までエンドツーエンドで学習し、事前トレーニングでリージョンアノテーションを使わずに、強いパフォーマンスが達成可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T18:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。