Fugu-MT 論文翻訳(概要): CommVQA: Situating Visual Question Answering in Communicative Contexts

論文の概要: CommVQA: Situating Visual Question Answering in Communicative Contexts

arxiv url: http://arxiv.org/abs/2402.15002v2
Date: Thu, 03 Oct 2024 22:11:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 03:23:34.144672
Title: CommVQA: Situating Visual Question Answering in Communicative Contexts
Title（参考訳）: CommVQA: コミュニケーションコンテキストにおける視覚的質問応答の選定
Authors: Nandita Shankar Naik, Christopher Potts, Elisa Kreiss,
Abstract要約: 画像、画像記述、実世界のコミュニケーションシナリオからなるデータセットであるCommVQAを紹介する。 CommVQAの解決には文脈情報へのアクセスが不可欠であることを示す。
参考スコア（独自算出の注目度）: 16.180130883242672
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Current visual question answering (VQA) models tend to be trained and evaluated on image-question pairs in isolation. However, the questions people ask are dependent on their informational needs and prior knowledge about the image content. To evaluate how situating images within naturalistic contexts shapes visual questions, we introduce CommVQA, a VQA dataset consisting of images, image descriptions, real-world communicative scenarios where the image might appear (e.g., a travel website), and follow-up questions and answers conditioned on the scenario and description. CommVQA, which contains 1000 images and 8,949 question-answer pairs, poses a challenge for current models. Error analyses and a human-subjects study suggest that generated answers still contain high rates of hallucinations, fail to fittingly address unanswerable questions, and don't suitably reflect contextual information. Overall, we show that access to contextual information is essential for solving CommVQA, leading to the highest performing VQA model and highlighting the relevance of situating systems within communicative scenarios.
Abstract（参考訳）: 現在の視覚的質問応答(VQA)モデルは、独立して画像検索ペアで訓練され評価される傾向にある。しかし、質問する質問は、画像の内容に関する情報的ニーズと事前の知識に依存している。自然主義的文脈における画像の配置が視覚的質問をどう形作るかを評価するために,CommunVQA,画像,画像記述を含むVQAデータセット,画像が現れる可能性のある実世界のコミュニケーションシナリオ(旅行ウェブサイトなど),シナリオと説明に規定されたフォローアップ質問と回答を紹介する。 1000の画像と8,949の質問応答ペアを含むCommVQAは、現在のモデルに挑戦している。誤り分析と人間-対象研究は、生成された答えは高い幻覚率を含み、解決不可能な問題に適切に対処できず、文脈情報を適切に反映していないことを示唆している。全体として,CommVQAの解決には文脈情報へのアクセスが不可欠であることを示す。

関連論文リスト

Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA [19.6585442152102]
本稿では,知識に基づく視覚的問合せ問題について検討し,その解を求めるためには,モデルが視覚的モダリティに根ざす必要があることを示した。我々の研究は、複雑な質問をいくつかの単純な質問に置き換えることで、画像からより関連性の高い情報を抽出できることを示した。
論文参考訳（メタデータ） (2024-06-27T02:19:38Z)
Language Guided Visual Question Answering: Elevate Your Multimodal Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-31T03:54:11Z)
Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文参考訳（メタデータ） (2023-08-01T05:28:13Z)
Context-VQA: Towards Context-Aware and Purposeful Visual Question Answering [17.675630617265288]
視覚的質問応答(VQA)は、インターネットをよりインタラクティブな方法でアクセスできるようにする可能性がある。盲目または視力の低い人は、画像が現れるコンテキストを含む画像の説明を好む。 VQAモデルは、コンテキストを考慮に入れない限り、人々の要求を満たすために完全には成功しない、と私たちは主張する。
論文参考訳（メタデータ） (2023-07-28T18:01:08Z)
ChiQA: A Large Scale Image-based Real-World Question Answering Dataset for Multi-Modal Understanding [42.5118058527339]
ChiQAには40万以上の質問と200万以上の質問イメージのペアが含まれている。 ChiQAは、接地、比較、読みなど、言語と視覚の両方を深く理解する必要がある。 ALBEFのような最先端のビジュアル言語モデルを評価し,ChiQAの改善の余地がまだ大きいことを実証した。
論文参考訳（メタデータ） (2022-08-05T07:55:28Z)
A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文参考訳（メタデータ） (2022-06-03T17:52:27Z)
MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media Knowledge Extraction and Grounding [131.8797942031366]
我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
論文参考訳（メタデータ） (2021-12-20T18:23:30Z)
Knowledge-Routed Visual Question Reasoning: Challenges for Deep Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文参考訳（メタデータ） (2020-12-14T00:33:44Z)
CapWAP: Captioning with a Purpose [56.99405135645775]
我々は、CapWAP(Captioning with a Purpose)という新しいタスクを提案する。私たちのゴールは、意図した人口の情報ニーズに合うように調整可能なシステムを開発することです。目的とする情報に直接最適化するために強化学習を利用することが可能であることを示す。
論文参考訳（メタデータ） (2020-11-09T09:23:55Z)
Visual Question Answering on Image Sets [70.4472272672716]
本稿では,一般に研究されているシングルイメージVQA問題をマルチイメージ設定に一般化する,画像セット視覚質問応答(ISVQA)の課題を紹介する。自然言語の質問と画像の集合を入力として、画像の内容に基づいて質問に答えることを目的としている。質問は1つ以上の画像のオブジェクトと関係、あるいは画像セットによって描かれたシーン全体についてである。
論文参考訳（メタデータ） (2020-08-27T08:03:32Z)
SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文参考訳（メタデータ） (2020-01-20T01:02:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。