論文の概要: Rationale-based Ensemble of Multiple QA Strategies for Zero-shot Knowledge-based VQA
- arxiv url: http://arxiv.org/abs/2406.12746v2
- Date: Wed, 19 Jun 2024 02:02:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 11:58:33.003704
- Title: Rationale-based Ensemble of Multiple QA Strategies for Zero-shot Knowledge-based VQA
- Title(参考訳): ゼロショット知識に基づくVQAのためのRationaleに基づく複数QAストラテジーのアンサンブル
- Authors: Miaoyu Li, Haoxin Li, Zilin Du, Boyang Li,
- Abstract要約: K-VQA(Knowledge-based Visual Qustion-Awering)は、画像に描かれているもの以外の背景知識の活用を必要とする。
現在のゼロショットK-VQA法は、通常、イメージを単一のタイプのテキスト決定コンテキストに変換し、テキストベースのモデルを使用して、それに基づいて質問に答える。
本稿では,複数問合せ戦術の動的アンサンブルを実現するために,Rationale を用いたアンサーコンテキスト戦術のアンサンブル(REACT)を提案する。
- 参考スコア(独自算出の注目度): 8.498145119681437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge-based Visual Qustion-answering (K-VQA) necessitates the use of background knowledge beyond what is depicted in the image. Current zero-shot K-VQA methods usually translate an image to a single type of textual decision context and use a text-based model to answer the question based on it, which conflicts with the fact that K-VQA questions often require the combination of multiple question-answering strategies. In light of this, we propose Rationale-based Ensemble of Answer Context Tactics (REACT) to achieve a dynamic ensemble of multiple question-answering tactics, comprising Answer Candidate Generation (ACG) and Rationale-based Strategy Fusion (RSF). In ACG, we generate three distinctive decision contexts to provide different strategies for each question, resulting in the generation of three answer candidates. RSF generates automatic and mechanistic rationales from decision contexts for each candidate, allowing the model to select the correct answer from all candidates. We conduct comprehensive experiments on the OK-VQA and A-OKVQA datasets, and our method significantly outperforms state-of-the-art LLM-based baselines on all datasets.
- Abstract(参考訳): K-VQA(Knowledge-based Visual Qustion-Awering)は、画像に描かれているもの以外の背景知識の使用を必要とする。
現在のゼロショットK-VQA法は、通常、1種類のテキスト決定コンテキストに画像を変換し、それに基づいてテキストベースのモデルを使用して質問に答えるが、K-VQAの質問は複数の質問答え戦略の組み合わせを必要とすることが多いという事実と矛盾する。
そこで本研究では,Rationale-based Ensemble of Answer Context Tactics (REACT) を提案し,AcG(Answer Candidate Generation)とRSF(Rationale-based Strategy Fusion)を含む複数の質問回答戦術の動的アンサンブルを実現する。
ACGでは、各質問に対して異なる戦略を提供するために3つの決定コンテキストを生成し、その結果、3つの回答候補が生成される。
RSFは、各候補に対する決定コンテキストから自動的および機械的合理性を生成し、モデルがすべての候補から正しい答えを選択することを可能にする。
我々はOK-VQAデータセットとA-OKVQAデータセットの総合的な実験を行い、この手法は全てのデータセットにおける最先端のLCMベースラインを大幅に上回っている。
関連論文リスト
- Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。
このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。
すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文 参考訳(メタデータ) (2024-10-20T22:59:34Z) - Causal Reasoning through Two Layers of Cognition for Improving
Generalization in Visual Question Answering [28.071906755200043]
VQA(Visual Question Answering)の一般化は、トレーニングディストリビューション以外のコンテキストによるイメージに関する質問に答えるモデルを必要とする。
本稿では,因果推論因子を強調することでマルチモーダル予測を改善する認知経路VQA(CopVQA)を提案する。
CopVQAは、PathVQAデータセット上の新しい最先端(SOTA)と、モデルサイズの4分の1のVQA-CPv2、VQAv2、VQA RAD上の現在のSOTAと同等の精度を達成する。
論文 参考訳(メタデータ) (2023-10-09T05:07:58Z) - Reasoning over Hierarchical Question Decomposition Tree for Explainable
Question Answering [83.74210749046551]
ヘテロジニアス知識統合のための質問分解手法を提案する。
階層的質問分解木(RoHT)を用いた新しい2段階XQAフレームワークを提案する。
複雑なQAデータセットKQA ProとMusiqueの実験は、我々のフレームワークがSOTAメソッドを著しく上回っていることを示している。
論文 参考訳(メタデータ) (2023-05-24T11:45:59Z) - Chain-of-Knowledge: Grounding Large Language Models via Dynamic
Knowledge Adapting over Heterogeneous Sources [87.26486246513063]
Chain-of-knowledge (CoK)は、大規模な言語モデルを拡張するフレームワークである。
CoKは推論準備、動的知識適応、解答統合の3段階からなる。
論文 参考訳(メタデータ) (2023-05-22T17:34:23Z) - Query Enhanced Knowledge-Intensive Conversation via Unsupervised Joint
Modeling [35.27735234588822]
本稿では,知識集約型会話,すなわちQKConvに対する教師なしクエリ強化手法を提案する。
QKConvは共同トレーニングによって最適化され、複数の候補クエリを探索し、対応する選択された知識を活用することで応答を生成する。
論文 参考訳(メタデータ) (2022-12-19T16:21:05Z) - Multifaceted Improvements for Conversational Open-Domain Question
Answering [54.913313912927045]
対話型オープンドメイン質問回答(MICQA)のための多面的改善フレームワークを提案する。
第一に、提案したKL分割に基づく正規化は、検索と解答のためのより良い質問理解をもたらすことができる。
第二に、追加されたポストランカモジュールは、より関連性の高いパスをトップにプッシュし、2アスペクトの制約で読者に選択できる。
第3に、十分に設計されたカリキュラム学習戦略は、訓練と推論の黄金の通路設定のギャップを効果的に狭め、黄金の通路支援なしで真の答えを見つけることを奨励する。
論文 参考訳(メタデータ) (2022-04-01T07:54:27Z) - MuKEA: Multimodal Knowledge Extraction and Accumulation for
Knowledge-based Visual Question Answering [23.628740943735167]
視覚的対象と事実の回答を暗黙の関係で関連付けるために,明快な三重項によるマルチモーダル知識を表現するためにMuKEAを提案する。
事前学習と微調整の学習戦略を採用することで、基礎知識とドメイン固有のマルチモーダル知識の両方を段階的に蓄積し、回答予測を行う。
論文 参考訳(メタデータ) (2022-03-17T07:42:14Z) - ArT: All-round Thinker for Unsupervised Commonsense Question-Answering [54.068032948300655]
本稿では,知識生成における関連性を完全に取り除き,オールラウンド思考者(ArT)のアプローチを提案する。
我々は、COPA、SocialIQA、SCTの3つの共通センスQAベンチマークで評価した。
論文 参考訳(メタデータ) (2021-12-26T18:06:44Z) - Differentiable Open-Ended Commonsense Reasoning [80.94997942571838]
我々は、自然言語で書かれたコモンセンス事実のコーパスのみを資源として、オープンエンドコモンセンス推論(OpenCSR)について研究する。
OpenCSRへのアプローチとして、知識ファクトに対するマルチホップ推論のための効率的な微分可能なモデルDrFactを提案する。
論文 参考訳(メタデータ) (2020-10-24T10:07:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。