論文の概要: Rationale-based Ensemble of Multiple QA Strategies for Zero-shot Knowledge-based VQA
- arxiv url: http://arxiv.org/abs/2406.12746v2
- Date: Wed, 19 Jun 2024 02:02:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 11:58:33.003704
- Title: Rationale-based Ensemble of Multiple QA Strategies for Zero-shot Knowledge-based VQA
- Title(参考訳): ゼロショット知識に基づくVQAのためのRationaleに基づく複数QAストラテジーのアンサンブル
- Authors: Miaoyu Li, Haoxin Li, Zilin Du, Boyang Li,
- Abstract要約: K-VQA(Knowledge-based Visual Qustion-Awering)は、画像に描かれているもの以外の背景知識の活用を必要とする。
現在のゼロショットK-VQA法は、通常、イメージを単一のタイプのテキスト決定コンテキストに変換し、テキストベースのモデルを使用して、それに基づいて質問に答える。
本稿では,複数問合せ戦術の動的アンサンブルを実現するために,Rationale を用いたアンサーコンテキスト戦術のアンサンブル(REACT)を提案する。
- 参考スコア(独自算出の注目度): 8.498145119681437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge-based Visual Qustion-answering (K-VQA) necessitates the use of background knowledge beyond what is depicted in the image. Current zero-shot K-VQA methods usually translate an image to a single type of textual decision context and use a text-based model to answer the question based on it, which conflicts with the fact that K-VQA questions often require the combination of multiple question-answering strategies. In light of this, we propose Rationale-based Ensemble of Answer Context Tactics (REACT) to achieve a dynamic ensemble of multiple question-answering tactics, comprising Answer Candidate Generation (ACG) and Rationale-based Strategy Fusion (RSF). In ACG, we generate three distinctive decision contexts to provide different strategies for each question, resulting in the generation of three answer candidates. RSF generates automatic and mechanistic rationales from decision contexts for each candidate, allowing the model to select the correct answer from all candidates. We conduct comprehensive experiments on the OK-VQA and A-OKVQA datasets, and our method significantly outperforms state-of-the-art LLM-based baselines on all datasets.
- Abstract(参考訳): K-VQA(Knowledge-based Visual Qustion-Awering)は、画像に描かれているもの以外の背景知識の使用を必要とする。
現在のゼロショットK-VQA法は、通常、1種類のテキスト決定コンテキストに画像を変換し、それに基づいてテキストベースのモデルを使用して質問に答えるが、K-VQAの質問は複数の質問答え戦略の組み合わせを必要とすることが多いという事実と矛盾する。
そこで本研究では,Rationale-based Ensemble of Answer Context Tactics (REACT) を提案し,AcG(Answer Candidate Generation)とRSF(Rationale-based Strategy Fusion)を含む複数の質問回答戦術の動的アンサンブルを実現する。
ACGでは、各質問に対して異なる戦略を提供するために3つの決定コンテキストを生成し、その結果、3つの回答候補が生成される。
RSFは、各候補に対する決定コンテキストから自動的および機械的合理性を生成し、モデルがすべての候補から正しい答えを選択することを可能にする。
我々はOK-VQAデータセットとA-OKVQAデータセットの総合的な実験を行い、この手法は全てのデータセットにおける最先端のLCMベースラインを大幅に上回っている。
関連論文リスト
- Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering [45.88079503965459]
視覚質問応答(VQA)の簡易化のために,視覚言語モデル(VLM)の拡張手法が提案されている。
本稿では,人間のようなトップダウン推論を模倣する新しいマルチエージェント協調フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-29T03:10:42Z) - Improving Zero-shot Visual Question Answering via Large Language Models
with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。
自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。
各推論質問は、元の質問の意図を明確に示す。
そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文 参考訳(メタデータ) (2023-11-15T15:40:46Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Consecutive Question Generation via Dynamic Multitask Learning [17.264399861776187]
本稿では,論理的に関連する質問応答対の集合を生成する連続質問生成タスク(CQG)を提案する。
まず、CQGの4つのキー要素について検討し、1つのメインタスクが質問応答ペアを生成し、4つの補助タスクが他の要素を生成する新しい動的マルチタスクフレームワークを提案する。
我々は,我々の戦略が質問生成を大幅に改善し,複数の関連するNLPタスクに利益をもたらすことを証明した。
論文 参考訳(メタデータ) (2022-11-16T11:50:36Z) - PACIFIC: Towards Proactive Conversational Question Answering over
Tabular and Textual Data in Finance [96.06505049126345]
我々はPACIFICという新しいデータセットを提案する。既存のCQAデータセットと比較すると、PACIFICは(i)活動性、(ii)数値推論、(iii)表とテキストのハイブリッドコンテキストの3つの重要な特徴を示す。
質問生成とCQAを組み合わせたPCQA(Proactive Conversational Question Answering)に基づいて,新しいタスクを定義する。
UniPCQAはPCQAのすべてのサブタスク上でマルチタスク学習を行い、Seeq2Seqの上位$kのサンプルをクロスバリデーションすることで、マルチタスク学習におけるエラー伝搬問題を緩和するための単純なアンサンブル戦略を取り入れている。
論文 参考訳(メタデータ) (2022-10-17T08:06:56Z) - VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks
for Visual Question Answering [79.22069768972207]
本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。
具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。
課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
論文 参考訳(メタデータ) (2022-05-23T17:55:34Z) - Adaptive Information Seeking for Open-Domain Question Answering [61.39330982757494]
本稿では,オープンドメイン質問応答,すなわちAISOに対する適応型情報探索手法を提案する。
学習方針によると、AISOは適切な検索行動を選択し、各ステップで行方不明の証拠を探すことができる。
AISOは、検索と回答の評価の両方の観点から、事前定義された戦略で全てのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2021-09-14T15:08:13Z) - Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit
Reasoning Strategies [78.68534915690404]
StrategyQAは、必要な推論ステップが問題に暗黙的であり、戦略を使用して推論されるべきベンチマークです。
用語に基づくプライミングを組み合わせ、アノテーションーを刺激し、アノテーションーの集団を慎重に制御し、推論ショートカットを排除するための逆フィルタリングを行うデータ収集手順を提案する。
総合的に、StrategyQAには2,780の例があり、それぞれが戦略問題、その分解、証拠パラグラフで構成されている。
論文 参考訳(メタデータ) (2021-01-06T19:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。