論文の概要: CommVQA: Situating Visual Question Answering in Communicative Contexts
- arxiv url: http://arxiv.org/abs/2402.15002v1
- Date: Thu, 22 Feb 2024 22:31:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 16:07:13.801625
- Title: CommVQA: Situating Visual Question Answering in Communicative Contexts
- Title(参考訳): CommVQA: コミュニケーションコンテキストにおける視覚的質問応答の選定
- Authors: Nandita Shankar Naik, Christopher Potts, Elisa Kreiss
- Abstract要約: 画像、画像記述、実世界のコミュニケーションシナリオからなるデータセットであるCommVQAを紹介する。
CommVQAが現在のモデルに挑戦していることを示す。
- 参考スコア(独自算出の注目度): 17.675630617265288
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Current visual question answering (VQA) models tend to be trained and
evaluated on image-question pairs in isolation. However, the questions people
ask are dependent on their informational needs and prior knowledge about the
image content. To evaluate how situating images within naturalistic contexts
shapes visual questions, we introduce CommVQA, a VQA dataset consisting of
images, image descriptions, real-world communicative scenarios where the image
might appear (e.g., a travel website), and follow-up questions and answers
conditioned on the scenario. We show that CommVQA poses a challenge for current
models. Providing contextual information to VQA models improves performance
broadly, highlighting the relevance of situating systems within a communicative
scenario.
- Abstract(参考訳): 現在の視覚的質問応答(VQA)モデルは、独立して画像検索ペアで訓練され評価される傾向にある。
しかしながら、人々が尋ねる質問は、彼らの情報ニーズと画像コンテンツに関する事前知識に依存する。
自然主義的文脈における画像の配置が視覚的な質問をどう形作るかを評価するために、私たちはCommunVQA、画像、画像記述を含むVQAデータセット、画像が現れるかもしれない現実のコミュニケーションシナリオ(旅行ウェブサイトなど)、シナリオに条件付けられたフォローアップ質問と回答を紹介する。
CommVQAが現在のモデルに挑戦していることを示す。
VQAモデルに対するコンテキスト情報の提供は、コミュニケーションシナリオ内のシチュエーションシステムとの関連性を強調し、パフォーマンスを広く向上させる。
関連論文リスト
- Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文 参考訳(メタデータ) (2023-08-01T05:28:13Z) - Context-VQA: Towards Context-Aware and Purposeful Visual Question
Answering [17.675630617265288]
視覚的質問応答(VQA)は、インターネットをよりインタラクティブな方法でアクセスできるようにする可能性がある。
盲目または視力の低い人は、画像が現れるコンテキストを含む画像の説明を好む。
VQAモデルは、コンテキストを考慮に入れない限り、人々の要求を満たすために完全には成功しない、と私たちは主張する。
論文 参考訳(メタデータ) (2023-07-28T18:01:08Z) - Interpretable by Design Visual Question Answering [64.66788198885182]
解釈可能なVQAモデルは、画像のどの部分から得られる結論を判断できるべきだ、と我々は主張する。
ここでは、VQA問題に対する明示的な中間的動的推論構造を設計する。
InterVQAは、最先端(ソータ)のエンドタスクのパフォーマンスと同様に、高品質な明示的な中間推論ステップを生成する。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - Can Pre-trained Vision and Language Models Answer Visual
Information-Seeking Questions? [50.29862466940209]
情報検索に適した視覚的質問応答データセットであるInfoSeekを紹介する。
事前学習した様々な視覚的質問応答モデルを分析し,その特徴について考察する。
関連文書を検索することでInfoSeekの性能を向上させるために,正確な視覚的実体認識が利用できることを示す。
論文 参考訳(メタデータ) (2023-02-23T00:33:54Z) - Can Open Domain Question Answering Systems Answer Visual Knowledge
Questions? [7.442099405543527]
画像中のエンティティを参照するdeictic参照句を含む多くの視覚的質問は、"非接地的"な質問として書き直すことができる。
これにより、視覚的質問応答のための既存のテキストベースのOpen Domain Question Answering (QA) システムの再利用が可能になる。
本稿では, (a) 画像解析, (b) 質問の書き直し, (c) テキストによる質問応答に既存のシステムを再利用して, 視覚的な質問に答える潜在的データ効率のアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-09T06:47:40Z) - COIN: Counterfactual Image Generation for VQA Interpretation [5.994412766684842]
本稿では,VQAモデルに対する対実画像の生成による解釈可能性のアプローチを提案する。
単一画像上でのVQAモデルの結果の解釈に加えて、得られた結果と議論は、VQAモデルの振る舞いに関する広範な説明を提供する。
論文 参考訳(メタデータ) (2022-01-10T13:51:35Z) - MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media
Knowledge Extraction and Grounding [131.8797942031366]
我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。
具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。
本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
論文 参考訳(メタデータ) (2021-12-20T18:23:30Z) - CapWAP: Captioning with a Purpose [56.99405135645775]
我々は、CapWAP(Captioning with a Purpose)という新しいタスクを提案する。
私たちのゴールは、意図した人口の情報ニーズに合うように調整可能なシステムを開発することです。
目的とする情報に直接最適化するために強化学習を利用することが可能であることを示す。
論文 参考訳(メタデータ) (2020-11-09T09:23:55Z) - Visual Question Answering on Image Sets [70.4472272672716]
本稿では,一般に研究されているシングルイメージVQA問題をマルチイメージ設定に一般化する,画像セット視覚質問応答(ISVQA)の課題を紹介する。
自然言語の質問と画像の集合を入力として、画像の内容に基づいて質問に答えることを目的としている。
質問は1つ以上の画像のオブジェクトと関係、あるいは画像セットによって描かれたシーン全体についてである。
論文 参考訳(メタデータ) (2020-08-27T08:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。