論文の概要: DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs
- arxiv url: http://arxiv.org/abs/2401.05190v2
- Date: Tue, 2 Apr 2024 20:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 22:27:34.507791
- Title: DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs
- Title(参考訳): ディバイド・アンド・コンカレント推論によるLCMを用いた多項目質問応答
- Authors: Zijie Meng, Yan Zhang, Zhaopeng Feng, Zuozhu Liu,
- Abstract要約: 大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
- 参考スコア(独自算出の注目度): 9.561022942046279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown impressive performance in reasoning benchmarks with the emergence of Chain-of-Thought (CoT), particularly in multi-choice question (MCQ). However, current works equally resolve questions regardless of the problem-solving difficulty, leading to an excessive focus on simple items while insufficient attention on intricate ones. To address this challenge, we propose a simple yet effective strategy, Divide and Conquer Reasoning (DCR), to enhance the reasoning capability of LLMs for MCQs, as inspired by human beings using heuristics to first categorize tasks and then handle them separately. In particular, we first categorize questions into two subsets based on confidence score ($\mathcal{CS}$), which is estimated by statistical frequency of generated answers. Subsequently, we propose Filter Choices based Reasoning (FCR) to improve model performance on MCQs with low ($\mathcal{CS}$). Our experiments demonstrate that the proposed strategy only costs 85% of SOTA, while still achieves average accuracy improvement of 1.56% across nine datasets including arithmetic, commonsense, and logic reasoning tasks. The code is at \url{https://github.com/AiMijie/Divide-and-Conquer}
- Abstract(参考訳): 大規模言語モデル(LLM)は、特にMCQ(Multi-choice question)において、CoT(Chain-of-Thought)の出現に伴う推論ベンチマークにおいて、優れたパフォーマンスを示している。
しかし、現在の作業では、問題の解決が困難であるかどうかに関わらず、質問の解決が等しく行われており、複雑な問題への注意が不足しながら、単純な項目に過度に焦点をあてる結果となっている。
この課題に対処するために,まずはヒューリスティックスを用いて人間に触発されたMCQに対するLCMの推論能力を高めるための,単純で効果的なDCR(Divide and Conquer Reasoning)を提案する。
特に,質問を信頼スコア(\mathcal{CS}$)に基づいて2つのサブセットに分類する。
次に,フィルタ選択に基づく推論(FCR)を提案し,MCQのモデル性能を低値($\mathcal{CS}$)で向上させる。
実験の結果,提案手法のコストはSOTAの85%に過ぎず,算術,コモンセンス,論理推論を含む9つのデータセットの平均精度は1.56%向上した。
コードは \url{https://github.com/AiMijie/Divide-and-Conquer} にある。
関連論文リスト
- Can multiple-choice questions really be useful in detecting the abilities of LLMs? [15.756543037102256]
大規模言語モデル(LLM)の評価には,MCQ(Multiple-choice Question)が広く用いられている。
課題と評価方法のミスアライメントは,MCQの有効性の思慮深い分析を必要とする。
質問応答(QA)データセットを中国語と英語の2言語で評価した。
論文 参考訳(メタデータ) (2024-03-26T14:43:48Z) - Training Chain-of-Thought via Latent-Variable Inference [30.21067593018967]
大規模言語モデル(LLM)は、チェーン・オブ・シンクレットのプロンプトを使って解答ステップを実行するように指示されたときに、より正確かつ解釈可能な問題を解決する。
CoTと教師付きチューニングを組み合わせるには、正しい回答だけでなく、それらの答えにつながる詳細な根拠の監督が必要である。
そこで本研究では,CoTプロンプトを用いて正しい回答を生成することで,電子対数類似度を最大化するための微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-11-28T17:47:32Z) - Modularized Zero-shot VQA with Pre-trained Models [20.674979268279728]
本稿では,質問をサブ推論ステップに明示的に分解し,高度に解釈可能なモジュール化されたゼロショットネットワークを提案する。
ゼロショット設定下での2つのVQAベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-27T05:00:14Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Mixed Large
Language Model Signals for Science Question Answering [59.63860993280275]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
LLM信号を用いた科学質問応答の指導を目的とした,T-SciQと呼ばれる新しい手法を提案する。
提案手法は,ScienceQAベンチマークで96.18%の精度で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-05T11:56:30Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - Adapting Neural Link Predictors for Data-Efficient Complex Query
Answering [45.961111441411084]
本稿では,複雑な問合せタスクに対して,ニューラルネットワーク予測スコアを再校正するために最適化されたパラメータ効率のスコア強調モデルを提案する。
CQD$mathcalA$は現在の最先端手法よりもはるかに正確な結果が得られる。
論文 参考訳(メタデータ) (2023-01-29T00:17:16Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z) - Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit
Reasoning Strategies [78.68534915690404]
StrategyQAは、必要な推論ステップが問題に暗黙的であり、戦略を使用して推論されるべきベンチマークです。
用語に基づくプライミングを組み合わせ、アノテーションーを刺激し、アノテーションーの集団を慎重に制御し、推論ショートカットを排除するための逆フィルタリングを行うデータ収集手順を提案する。
総合的に、StrategyQAには2,780の例があり、それぞれが戦略問題、その分解、証拠パラグラフで構成されている。
論文 参考訳(メタデータ) (2021-01-06T19:14:23Z) - Counterfactual Variable Control for Robust and Interpretable Question
Answering [57.25261576239862]
ディープニューラルネットワークに基づく質問応答(QA)モデルは、多くの場合、堅牢でも説明もできない。
本稿では、因果推論を用いてQAモデルのこのような突発的な「能力」を検証する。
本稿では,任意のショートカット相関を明示的に緩和する,CVC(Counterfactual Variable Control)という新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T10:09:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。