Fugu-MT 論文翻訳(概要): Diversify, Rationalize, and Combine: Ensembling Multiple QA Strategies for Zero-shot Knowledge-based VQA

論文の概要: Diversify, Rationalize, and Combine: Ensembling Multiple QA Strategies for Zero-shot Knowledge-based VQA

arxiv url: http://arxiv.org/abs/2406.12746v4
Date: Fri, 04 Oct 2024 02:00:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 09:47:09.187419
Title: Diversify, Rationalize, and Combine: Ensembling Multiple QA Strategies for Zero-shot Knowledge-based VQA
Title（参考訳）: 多様性、合理化、組み合わせ:ゼロショット知識に基づくVQAのための複数のQA戦略の構築
Authors: Miaoyu Li, Haoxin Li, Zilin Du, Boyang Li,
Abstract要約: 知識に基づく教育(DietCoke)のための多様性,エビデンス・トランニケーション,組み合わせを提案する。 DietCokeは、補完的な質問回答戦術の束を利用して、文章の合理性を使って回答を集約する。実験により、DietCokeは最先端のLCMベースのベースラインを著しく上回っていることがわかった。
参考スコア（独自算出の注目度）: 8.498145119681437
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Knowledge-based Visual Qustion-answering (K-VQA) often requires the use of background knowledge beyond the image. However, we discover that a single knowledge generation strategy is often insuffcient for all K-VQA questions. To this end, we propose Diversifcation, Evidence Truncation, and Combination for Knowledge-based Elucidation (DietCoke), which utilizes a bundle of complementary question-answering tactics and aggregates their answers using textual rationales. DietCoke comprises of three stages: diversifcation, rationalization, and ensemble. The diversification stage generates three distinctive decision contexts, each leading to its own answer candidate. The rationalization stage generates two rationales, the automatic rationale and the mechanistic rationale, for each answer candidate using decorrelated techniques. Finally, in the ensemble stage, an LLM informed by the rationales selects one answer from the three candidates. Experiments show that DietCoke significantly outperforms state-of-the-art LLM-based baselines by 2.8% on OK-VOA and 4.7% on A-OKVOA and that the strategies in the ensembles are highly complementary.
Abstract（参考訳）: 知識に基づくVisual Qustion-Awering (K-VQA) は画像以外の背景知識の活用を必要とすることが多い。しかし、K-VQAの全ての質問に対して、単一の知識生成戦略が不十分であることが判明した。そこで本研究では, 相補的な質問回答手法のバンドルを利用して, 文章の合理性を利用して回答を集約する, 知識に基づく学習のための多様化, エビデンス・トランニケーション, 組み合わせ (DietCoke) を提案する。ダイエットコークは、多様化、合理化、合奏の3段階からなる。多様化段階は3つの異なる決定コンテキストを生成し、それぞれが独自の回答候補に導かれる。有理化段階は、デコレーショナル手法を用いて各回答候補に対して、自動的理性と機械的理性という2つの理性を生成する。最後に、アンサンブル段階では、理性によって通知されたLCMが3つの候補から1つの答えを選択する。実験の結果,ダイエットコークスはOK-VOAが2.8%,A-OKVOAが4.7%,組曲戦略が極めて相補的であることがわかった。

関連論文リスト

Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文参考訳（メタデータ） (2024-10-20T22:59:34Z)
Causal Reasoning through Two Layers of Cognition for Improving Generalization in Visual Question Answering [28.071906755200043]
VQA(Visual Question Answering)の一般化は、トレーニングディストリビューション以外のコンテキストによるイメージに関する質問に答えるモデルを必要とする。本稿では,因果推論因子を強調することでマルチモーダル予測を改善する認知経路VQA(CopVQA)を提案する。 CopVQAは、PathVQAデータセット上の新しい最先端(SOTA)と、モデルサイズの4分の1のVQA-CPv2、VQAv2、VQA RAD上の現在のSOTAと同等の精度を達成する。
論文参考訳（メタデータ） (2023-10-09T05:07:58Z)
Reasoning over Hierarchical Question Decomposition Tree for Explainable Question Answering [83.74210749046551]
ヘテロジニアス知識統合のための質問分解手法を提案する。階層的質問分解木(RoHT)を用いた新しい2段階XQAフレームワークを提案する。複雑なQAデータセットKQA ProとMusiqueの実験は、我々のフレームワークがSOTAメソッドを著しく上回っていることを示している。
論文参考訳（メタデータ） (2023-05-24T11:45:59Z)
Chain-of-Knowledge: Grounding Large Language Models via Dynamic Knowledge Adapting over Heterogeneous Sources [87.26486246513063]
Chain-of-knowledge (CoK)は、大規模な言語モデルを拡張するフレームワークである。 CoKは推論準備、動的知識適応、解答統合の3段階からなる。
論文参考訳（メタデータ） (2023-05-22T17:34:23Z)
Query Enhanced Knowledge-Intensive Conversation via Unsupervised Joint Modeling [35.27735234588822]
本稿では,知識集約型会話,すなわちQKConvに対する教師なしクエリ強化手法を提案する。 QKConvは共同トレーニングによって最適化され、複数の候補クエリを探索し、対応する選択された知識を活用することで応答を生成する。
論文参考訳（メタデータ） (2022-12-19T16:21:05Z)
Multifaceted Improvements for Conversational Open-Domain Question Answering [54.913313912927045]
対話型オープンドメイン質問回答(MICQA)のための多面的改善フレームワークを提案する。第一に、提案したKL分割に基づく正規化は、検索と解答のためのより良い質問理解をもたらすことができる。第二に、追加されたポストランカモジュールは、より関連性の高いパスをトップにプッシュし、2アスペクトの制約で読者に選択できる。第3に、十分に設計されたカリキュラム学習戦略は、訓練と推論の黄金の通路設定のギャップを効果的に狭め、黄金の通路支援なしで真の答えを見つけることを奨励する。
論文参考訳（メタデータ） (2022-04-01T07:54:27Z)
MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering [23.628740943735167]
視覚的対象と事実の回答を暗黙の関係で関連付けるために,明快な三重項によるマルチモーダル知識を表現するためにMuKEAを提案する。事前学習と微調整の学習戦略を採用することで、基礎知識とドメイン固有のマルチモーダル知識の両方を段階的に蓄積し、回答予測を行う。
論文参考訳（メタデータ） (2022-03-17T07:42:14Z)
ArT: All-round Thinker for Unsupervised Commonsense Question-Answering [54.068032948300655]
本稿では,知識生成における関連性を完全に取り除き,オールラウンド思考者(ArT)のアプローチを提案する。我々は、COPA、SocialIQA、SCTの3つの共通センスQAベンチマークで評価した。
論文参考訳（メタデータ） (2021-12-26T18:06:44Z)
Differentiable Open-Ended Commonsense Reasoning [80.94997942571838]
我々は、自然言語で書かれたコモンセンス事実のコーパスのみを資源として、オープンエンドコモンセンス推論(OpenCSR)について研究する。 OpenCSRへのアプローチとして、知識ファクトに対するマルチホップ推論のための効率的な微分可能なモデルDrFactを提案する。
論文参考訳（メタデータ） (2020-10-24T10:07:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。