論文の概要: Context-VQA: Towards Context-Aware and Purposeful Visual Question
Answering
- arxiv url: http://arxiv.org/abs/2307.15745v1
- Date: Fri, 28 Jul 2023 18:01:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 19:47:19.648983
- Title: Context-VQA: Towards Context-Aware and Purposeful Visual Question
Answering
- Title(参考訳): Context-VQA: コンテキスト認識と目的の視覚的質問応答を目指して
- Authors: Nandita Naik, Christopher Potts, Elisa Kreiss
- Abstract要約: 視覚的質問応答(VQA)は、インターネットをよりインタラクティブな方法でアクセスできるようにする可能性がある。
盲目または視力の低い人は、画像が現れるコンテキストを含む画像の説明を好む。
VQAモデルは、コンテキストを考慮に入れない限り、人々の要求を満たすために完全には成功しない、と私たちは主張する。
- 参考スコア(独自算出の注目度): 6.416186337651879
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual question answering (VQA) has the potential to make the Internet more
accessible in an interactive way, allowing people who cannot see images to ask
questions about them. However, multiple studies have shown that people who are
blind or have low-vision prefer image explanations that incorporate the context
in which an image appears, yet current VQA datasets focus on images in
isolation. We argue that VQA models will not fully succeed at meeting people's
needs unless they take context into account. To further motivate and analyze
the distinction between different contexts, we introduce Context-VQA, a VQA
dataset that pairs images with contexts, specifically types of websites (e.g.,
a shopping website). We find that the types of questions vary systematically
across contexts. For example, images presented in a travel context garner 2
times more "Where?" questions, and images on social media and news garner 2.8
and 1.8 times more "Who?" questions than the average. We also find that context
effects are especially important when participants can't see the image. These
results demonstrate that context affects the types of questions asked and that
VQA models should be context-sensitive to better meet people's needs,
especially in accessibility settings.
- Abstract(参考訳): 視覚的質問応答(VQA)は、インターネットをインタラクティブな方法でアクセスしやすくする可能性があり、画像を見ることができない人々に質問することができる。
しかし、視覚障害者や視力の低い人は、画像が現れるコンテキストを取り入れた画像の説明を好むが、現在のVQAデータセットは分離した画像に焦点を当てている。
VQAモデルは、コンテキストを考慮に入れない限り、人々の要求を満たすために完全には成功しない、と私たちは主張する。
異なるコンテキスト間の区別をさらに動機付け、分析するために、イメージとコンテキスト、特にwebサイトの種類(ショッピングwebサイトなど)を組み合わせるvqaデータセットであるcontext-vqaを紹介する。
質問の種類は文脈によって様々である。
例えば、旅行コンテキストで提示された画像は、平均の2倍、質問は2倍、ソーシャルメディアやニュースのイメージは2.8倍、質問は1.8倍、といった具合です。
また、参加者が画像を見ることができない場合、コンテキスト効果が特に重要であることも分かりました。
これらの結果は、コンテキストが質問の種類に影響を与え、特にアクセシビリティ設定において、VQAモデルが人々の要求に合うようにコンテキストに敏感であることを示す。
関連論文リスト
- Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - CommVQA: Situating Visual Question Answering in Communicative Contexts [16.180130883242672]
画像、画像記述、実世界のコミュニケーションシナリオからなるデータセットであるCommVQAを紹介する。
CommVQAの解決には文脈情報へのアクセスが不可欠であることを示す。
論文 参考訳(メタデータ) (2024-02-22T22:31:39Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文 参考訳(メタデータ) (2023-08-01T05:28:13Z) - TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation
with Question Answering [86.38098280689027]
視覚的質問応答(VQA)を用いたテキスト入力に生成した画像の忠実度を測定する自動評価指標を導入する。
そこで本研究では,12カテゴリにわたる4Kの多様なテキスト入力と25Kの質問(オブジェクト,カウントなど)からなるベンチマークを用いて,既存のテキスト・ツー・イメージ・モデルの包括的評価を行う。
論文 参考訳(メタデータ) (2023-03-21T14:41:02Z) - ChiQA: A Large Scale Image-based Real-World Question Answering Dataset
for Multi-Modal Understanding [42.5118058527339]
ChiQAには40万以上の質問と200万以上の質問イメージのペアが含まれている。
ChiQAは、接地、比較、読みなど、言語と視覚の両方を深く理解する必要がある。
ALBEFのような最先端のビジュアル言語モデルを評価し,ChiQAの改善の余地がまだ大きいことを実証した。
論文 参考訳(メタデータ) (2022-08-05T07:55:28Z) - A Picture May Be Worth a Hundred Words for Visual Question Answering [26.83504716672634]
画像理解においては、簡潔だが詳細な画像表現を用いることが不可欠である。
より高速なR-CNNのような視覚モデルによって抽出された深い視覚的特徴は、複数のタスクで広く使われている。
本稿では、深い視覚的特徴の代わりに記述-探索ペアを入力とし、言語のみのトランスフォーマーモデルに入力する。
論文 参考訳(メタデータ) (2021-06-25T06:13:14Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - CapWAP: Captioning with a Purpose [56.99405135645775]
我々は、CapWAP(Captioning with a Purpose)という新しいタスクを提案する。
私たちのゴールは、意図した人口の情報ニーズに合うように調整可能なシステムを開発することです。
目的とする情報に直接最適化するために強化学習を利用することが可能であることを示す。
論文 参考訳(メタデータ) (2020-11-09T09:23:55Z) - Visual Question Answering on Image Sets [70.4472272672716]
本稿では,一般に研究されているシングルイメージVQA問題をマルチイメージ設定に一般化する,画像セット視覚質問応答(ISVQA)の課題を紹介する。
自然言語の質問と画像の集合を入力として、画像の内容に基づいて質問に答えることを目的としている。
質問は1つ以上の画像のオブジェクトと関係、あるいは画像セットによって描かれたシーン全体についてである。
論文 参考訳(メタデータ) (2020-08-27T08:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。