論文の概要: Accounting for Focus Ambiguity in Visual Questions
- arxiv url: http://arxiv.org/abs/2501.02201v1
- Date: Sat, 04 Jan 2025 05:36:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:07:28.610731
- Title: Accounting for Focus Ambiguity in Visual Questions
- Title(参考訳): 視覚的質問における焦点あいまいさの会計
- Authors: Chongyan Chen, Yu-Yun Tseng, Zhuoheng Li, Anush Venkatesh, Danna Gurari,
- Abstract要約: VQ-FocusAmbiguityは最初のVQAデータセットで、答えに到達するのに必要な質問で記述された各領域を視覚的にグラウンド化する。
視覚的疑問があいまいさに焦点を合わせているかどうかを認識し、画像内のすべての可視的焦点領域をローカライズする。
- 参考スコア(独自算出の注目度): 14.696389149373994
- License:
- Abstract: No existing work on visual question answering explicitly accounts for ambiguity regarding where the content described in the question is located in the image. To fill this gap, we introduce VQ-FocusAmbiguity, the first VQA dataset that visually grounds each region described in the question that is necessary to arrive at the answer. We then provide an analysis showing how our dataset for visually grounding `questions' is distinct from visually grounding `answers', and characterize the properties of the questions and segmentations provided in our dataset. Finally, we benchmark modern models for two novel tasks: recognizing whether a visual question has focus ambiguity and localizing all plausible focus regions within the image. Results show that the dataset is challenging for modern models. To facilitate future progress on these tasks, we publicly share the dataset with an evaluation server at https://focusambiguity.github.io/.
- Abstract(参考訳): 視覚的質問応答に関する既存の研究は、画像に記述された内容がどこにあるかという曖昧さを明示的に説明していない。
このギャップを埋めるために、私たちはVQ-FocusAmbiguityを導入します。
次に,「質問」を視覚的にグラウンド化するためのデータセットが,「回答」を視覚的にグラウンド化するデータセットとどのように異なるかを示し,データセットに提供される質問やセグメンテーションの特性を特徴付ける。
最後に、視覚的疑問があいまいさに焦点を合わせているかどうかを認識し、画像内のすべてのもっともらしい焦点領域をローカライズする2つの新しいタスクについて、最新のモデルをベンチマークする。
結果は、現在のモデルではデータセットが難しいことを示している。
これらのタスクの今後の進捗を容易にするため、データセットをhttps://focusambiguity.github.io/.com/で評価サーバと公開しています。
関連論文リスト
- Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文 参考訳(メタデータ) (2023-08-01T05:28:13Z) - What's Different between Visual Question Answering for Machine
"Understanding" Versus for Accessibility? [8.373151777137792]
視覚的質問応答(VQA)では、機械は関連する画像が与えられた質問に答えなければならない。
各種VQAモデルを評価することにより,マシンの"理解"データセット(VQA-v2)とアクセシビリティデータセット(VizWiz)の相違性を評価する。
本研究は,VQAにおけるアクセシビリティの機会と課題について考察し,今後の研究の方向性を提案する。
論文 参考訳(メタデータ) (2022-10-26T18:23:53Z) - From Pixels to Objects: Cubic Visual Attention for Visual Question
Answering [132.95819467484517]
近年,注目度に基づく視覚質問応答 (VQA) は,質問を利用して回答に関連する異なる視覚領域をターゲットにすることで大きな成功を収めている。
本稿では、VQAタスクを改善するために、新しいチャネルと空間的注意をオブジェクト領域に適用し、キュービック視覚注意(CVA)モデルを提案する。
実験の結果,提案手法は最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2022-06-04T07:03:18Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual
Question Answering [75.53187719777812]
本稿では,知識に基づく視覚的質問応答(VQA)における視覚表現を再考する。
本稿では,対象領域の明示的な情報を活用するための知識に基づく新しいVQA手法REVIVEを提案する。
我々は,新しい最先端性能,すなわち58.0%の精度を実現し,従来の最先端手法を大きなマージンで上回った。
論文 参考訳(メタデータ) (2022-06-02T17:59:56Z) - Grounding Answers for Visual Questions Asked by Visually Impaired People [16.978747012406266]
VizWiz-VQA-Groundingは、視覚障害者が質問する視覚的質問に答えを視覚的に根拠付ける最初のデータセットである。
データセットを分析し、それを5つのVQA-Groundingデータセットと比較し、類似点と異なる点を実証します。
論文 参考訳(メタデータ) (2022-02-04T06:47:16Z) - Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in
Visual Question Answering [71.6781118080461]
本稿では,視覚質問応答(VQA)タスクのためのグラフマッチング注意(GMA)ネットワークを提案する。
まず、画像用のグラフを構築するが、構文情報と埋め込み情報の両方の観点から質問用のグラフを構築する。
次に, 2段グラフエンコーダを用いてモダリティ内関係を探索し, 画像と質問の関係を推定するために, 注目に合う双方向のモダリティグラフを提示する。
実験により、我々のネットワークはGQAデータセットとVQA 2.0データセット上で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2021-12-14T10:01:26Z) - Point and Ask: Incorporating Pointing into Visual Question Answering [14.744503080484977]
VQA(Visual Question Answering)の拡張として,ポイントインプット質問の導入と動機付けを行う。
ポインティングは人間にとってほぼ普遍的なジェスチャーであり、現実世界のVQAはターゲット領域へのジェスチャーを含む可能性が高い。
我々は、人間の意図を推測する能力を含む、いくつかの視覚的認識課題を発見し、対処する。
論文 参考訳(メタデータ) (2020-11-27T11:43:45Z) - Visual Question Answering on Image Sets [70.4472272672716]
本稿では,一般に研究されているシングルイメージVQA問題をマルチイメージ設定に一般化する,画像セット視覚質問応答(ISVQA)の課題を紹介する。
自然言語の質問と画像の集合を入力として、画像の内容に基づいて質問に答えることを目的としている。
質問は1つ以上の画像のオブジェクトと関係、あるいは画像セットによって描かれたシーン全体についてである。
論文 参考訳(メタデータ) (2020-08-27T08:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。