論文の概要: What's Different between Visual Question Answering for Machine
"Understanding" Versus for Accessibility?
- arxiv url: http://arxiv.org/abs/2210.14966v1
- Date: Wed, 26 Oct 2022 18:23:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 12:17:13.698710
- Title: What's Different between Visual Question Answering for Machine
"Understanding" Versus for Accessibility?
- Title(参考訳): アクセシビリティのためのマシン"アンダーフェルス"に対する視覚的質問応答の違いは何か?
- Authors: Yang Trista Cao, Kyle Seelman, Kyungjun Lee, Hal Daum\'e III
- Abstract要約: 視覚的質問応答(VQA)では、機械は関連する画像が与えられた質問に答えなければならない。
各種VQAモデルを評価することにより,マシンの"理解"データセット(VQA-v2)とアクセシビリティデータセット(VizWiz)の相違性を評価する。
本研究は,VQAにおけるアクセシビリティの機会と課題について考察し,今後の研究の方向性を提案する。
- 参考スコア(独自算出の注目度): 8.373151777137792
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In visual question answering (VQA), a machine must answer a question given an
associated image. Recently, accessibility researchers have explored whether VQA
can be deployed in a real-world setting where users with visual impairments
learn about their environment by capturing their visual surroundings and asking
questions. However, most of the existing benchmarking datasets for VQA focus on
machine "understanding" and it remains unclear how progress on those datasets
corresponds to improvements in this real-world use case. We aim to answer this
question by evaluating discrepancies between machine "understanding" datasets
(VQA-v2) and accessibility datasets (VizWiz) by evaluating a variety of VQA
models. Based on our findings, we discuss opportunities and challenges in VQA
for accessibility and suggest directions for future work.
- Abstract(参考訳): 視覚質問応答(vqa)では、機械は関連する画像から質問に答えなければならない。
近年、アクセシビリティ研究者は、視覚障害者が周囲を捉えて質問することで環境を学習する現実世界でVQAを展開できるかどうかを調査している。
しかしながら、VQAの既存のベンチマークデータセットのほとんどは、マシンの"理解"に焦点を当てており、これらのデータセットの進捗が、この現実世界のユースケースの改善にどのように対応するかは、まだ不明である。
我々は,様々なVQAモデルを評価することにより,マシンの"理解"データセット(VQA-v2)とアクセシビリティデータセット(VizWiz)の相違性を評価することで,この問題に対処することを目指している。
本稿では,VQAにおけるアクセシビリティの機会と課題について考察し,今後の研究の方向性を提案する。
関連論文リスト
- Fully Authentic Visual Question Answering Dataset from Online Communities [72.0524198499719]
VQA(Visual Question Answering)は、画像に関する質問に答える機能である。
VQAデータセットは、すべてのコンテンツが真正のユースケースから生まれたものである。
このデータセットと8つの主流VQAデータセットとの関係を特徴付ける。
論文 参考訳(メタデータ) (2023-11-27T06:19:00Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - Grounding Answers for Visual Questions Asked by Visually Impaired People [16.978747012406266]
VizWiz-VQA-Groundingは、視覚障害者が質問する視覚的質問に答えを視覚的に根拠付ける最初のデータセットである。
データセットを分析し、それを5つのVQA-Groundingデータセットと比較し、類似点と異なる点を実証します。
論文 参考訳(メタデータ) (2022-02-04T06:47:16Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - Found a Reason for me? Weakly-supervised Grounded Visual Question
Answering using Capsules [85.98177341704675]
近年,VQAタスクの接地に関する問題が研究コミュニティで注目されている。
カプセル特徴のクエリーに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。
提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-05-11T07:45:32Z) - A survey on VQA_Datasets and Approaches [0.0]
視覚的質問応答(VQA)は、コンピュータビジョンと自然言語処理の技法を組み合わせたタスクである。
本稿では、VQAタスクのために提案された既存のデータセット、メトリクス、モデルを検討および分析する。
論文 参考訳(メタデータ) (2021-05-02T08:50:30Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - IQ-VQA: Intelligent Visual Question Answering [3.09911862091928]
ルールベースデータセット上で,VQAモデルの一貫性を15%向上することを示す。
また,視覚と言語に対するマルチモーダル理解が向上するアテンションマップの改良を定量的に示す。
論文 参考訳(メタデータ) (2020-07-08T20:41:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。