論文の概要: Diversify, Rationalize, and Combine: Ensembling Multiple QA Strategies for Zero-shot Knowledge-based VQA
- arxiv url: http://arxiv.org/abs/2406.12746v4
- Date: Fri, 04 Oct 2024 02:00:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 18:20:10.640749
- Title: Diversify, Rationalize, and Combine: Ensembling Multiple QA Strategies for Zero-shot Knowledge-based VQA
- Title(参考訳): 多様性、合理化、組み合わせ:ゼロショット知識に基づくVQAのための複数のQA戦略の構築
- Authors: Miaoyu Li, Haoxin Li, Zilin Du, Boyang Li,
- Abstract要約: 知識に基づく教育(DietCoke)のための多様性,エビデンス・トランニケーション,組み合わせを提案する。
DietCokeは、補完的な質問回答戦術の束を利用して、文章の合理性を使って回答を集約する。
実験により、DietCokeは最先端のLCMベースのベースラインを著しく上回っていることがわかった。
- 参考スコア(独自算出の注目度): 8.498145119681437
- License:
- Abstract: Knowledge-based Visual Qustion-answering (K-VQA) often requires the use of background knowledge beyond the image. However, we discover that a single knowledge generation strategy is often insuffcient for all K-VQA questions. To this end, we propose Diversifcation, Evidence Truncation, and Combination for Knowledge-based Elucidation (DietCoke), which utilizes a bundle of complementary question-answering tactics and aggregates their answers using textual rationales. DietCoke comprises of three stages: diversifcation, rationalization, and ensemble. The diversification stage generates three distinctive decision contexts, each leading to its own answer candidate. The rationalization stage generates two rationales, the automatic rationale and the mechanistic rationale, for each answer candidate using decorrelated techniques. Finally, in the ensemble stage, an LLM informed by the rationales selects one answer from the three candidates. Experiments show that DietCoke significantly outperforms state-of-the-art LLM-based baselines by 2.8% on OK-VOA and 4.7% on A-OKVOA and that the strategies in the ensembles are highly complementary.
- Abstract(参考訳): 知識に基づくVisual Qustion-Awering (K-VQA) は画像以外の背景知識の活用を必要とすることが多い。
しかし、K-VQAの全ての質問に対して、単一の知識生成戦略が不十分であることが判明した。
そこで本研究では, 相補的な質問回答手法のバンドルを利用して, 文章の合理性を利用して回答を集約する, 知識に基づく学習のための多様化, エビデンス・トランニケーション, 組み合わせ (DietCoke) を提案する。
ダイエットコークは、多様化、合理化、合奏の3段階からなる。
多様化段階は3つの異なる決定コンテキストを生成し、それぞれが独自の回答候補に導かれる。
有理化段階は、デコレーショナル手法を用いて各回答候補に対して、自動的理性と機械的理性という2つの理性を生成する。
最後に、アンサンブル段階では、理性によって通知されたLCMが3つの候補から1つの答えを選択する。
実験の結果,ダイエットコークスはOK-VOAが2.8%,A-OKVOAが4.7%,組曲戦略が極めて相補的であることがわかった。
関連論文リスト
- Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering [45.88079503965459]
視覚質問応答(VQA)の簡易化のために,視覚言語モデル(VLM)の拡張手法が提案されている。
本稿では,人間のようなトップダウン推論を模倣する新しいマルチエージェント協調フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-29T03:10:42Z) - Improving Zero-shot Visual Question Answering via Large Language Models
with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。
自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。
各推論質問は、元の質問の意図を明確に示す。
そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文 参考訳(メタデータ) (2023-11-15T15:40:46Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Consecutive Question Generation via Dynamic Multitask Learning [17.264399861776187]
本稿では,論理的に関連する質問応答対の集合を生成する連続質問生成タスク(CQG)を提案する。
まず、CQGの4つのキー要素について検討し、1つのメインタスクが質問応答ペアを生成し、4つの補助タスクが他の要素を生成する新しい動的マルチタスクフレームワークを提案する。
我々は,我々の戦略が質問生成を大幅に改善し,複数の関連するNLPタスクに利益をもたらすことを証明した。
論文 参考訳(メタデータ) (2022-11-16T11:50:36Z) - PACIFIC: Towards Proactive Conversational Question Answering over
Tabular and Textual Data in Finance [96.06505049126345]
我々はPACIFICという新しいデータセットを提案する。既存のCQAデータセットと比較すると、PACIFICは(i)活動性、(ii)数値推論、(iii)表とテキストのハイブリッドコンテキストの3つの重要な特徴を示す。
質問生成とCQAを組み合わせたPCQA(Proactive Conversational Question Answering)に基づいて,新しいタスクを定義する。
UniPCQAはPCQAのすべてのサブタスク上でマルチタスク学習を行い、Seeq2Seqの上位$kのサンプルをクロスバリデーションすることで、マルチタスク学習におけるエラー伝搬問題を緩和するための単純なアンサンブル戦略を取り入れている。
論文 参考訳(メタデータ) (2022-10-17T08:06:56Z) - VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks
for Visual Question Answering [79.22069768972207]
本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。
具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。
課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
論文 参考訳(メタデータ) (2022-05-23T17:55:34Z) - Adaptive Information Seeking for Open-Domain Question Answering [61.39330982757494]
本稿では,オープンドメイン質問応答,すなわちAISOに対する適応型情報探索手法を提案する。
学習方針によると、AISOは適切な検索行動を選択し、各ステップで行方不明の証拠を探すことができる。
AISOは、検索と回答の評価の両方の観点から、事前定義された戦略で全てのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2021-09-14T15:08:13Z) - Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit
Reasoning Strategies [78.68534915690404]
StrategyQAは、必要な推論ステップが問題に暗黙的であり、戦略を使用して推論されるべきベンチマークです。
用語に基づくプライミングを組み合わせ、アノテーションーを刺激し、アノテーションーの集団を慎重に制御し、推論ショートカットを排除するための逆フィルタリングを行うデータ収集手順を提案する。
総合的に、StrategyQAには2,780の例があり、それぞれが戦略問題、その分解、証拠パラグラフで構成されている。
論文 参考訳(メタデータ) (2021-01-06T19:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。