Fugu-MT 論文翻訳(概要): DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs

論文の概要: DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs

arxiv url: http://arxiv.org/abs/2401.05190v2
Date: Tue, 2 Apr 2024 20:58:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 22:27:34.507791
Title: DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs
Title（参考訳）: ディバイド・アンド・コンカレント推論によるLCMを用いた多項目質問応答
Authors: Zijie Meng, Yan Zhang, Zhaopeng Feng, Zuozhu Liu,
Abstract要約: 大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
参考スコア（独自算出の注目度）: 9.561022942046279
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have shown impressive performance in reasoning benchmarks with the emergence of Chain-of-Thought (CoT), particularly in multi-choice question (MCQ). However, current works equally resolve questions regardless of the problem-solving difficulty, leading to an excessive focus on simple items while insufficient attention on intricate ones. To address this challenge, we propose a simple yet effective strategy, Divide and Conquer Reasoning (DCR), to enhance the reasoning capability of LLMs for MCQs, as inspired by human beings using heuristics to first categorize tasks and then handle them separately. In particular, we first categorize questions into two subsets based on confidence score ($\mathcal{CS}$), which is estimated by statistical frequency of generated answers. Subsequently, we propose Filter Choices based Reasoning (FCR) to improve model performance on MCQs with low ($\mathcal{CS}$). Our experiments demonstrate that the proposed strategy only costs 85% of SOTA, while still achieves average accuracy improvement of 1.56% across nine datasets including arithmetic, commonsense, and logic reasoning tasks. The code is at \url{https://github.com/AiMijie/Divide-and-Conquer}
Abstract（参考訳）: 大規模言語モデル(LLM)は、特にMCQ(Multi-choice question)において、CoT(Chain-of-Thought)の出現に伴う推論ベンチマークにおいて、優れたパフォーマンスを示している。しかし、現在の作業では、問題の解決が困難であるかどうかに関わらず、質問の解決が等しく行われており、複雑な問題への注意が不足しながら、単純な項目に過度に焦点をあてる結果となっている。この課題に対処するために,まずはヒューリスティックスを用いて人間に触発されたMCQに対するLCMの推論能力を高めるための,単純で効果的なDCR(Divide and Conquer Reasoning)を提案する。特に,質問を信頼スコア(\mathcal{CS}$)に基づいて2つのサブセットに分類する。次に,フィルタ選択に基づく推論(FCR)を提案し,MCQのモデル性能を低値($\mathcal{CS}$)で向上させる。実験の結果,提案手法のコストはSOTAの85%に過ぎず,算術,コモンセンス,論理推論を含む9つのデータセットの平均精度は1.56%向上した。コードは \url{https://github.com/AiMijie/Divide-and-Conquer} にある。

関連論文リスト

Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching [66.39914384073145]
本稿では,安価な拡散サンプリング推論をステップレベル候補の再利用プールに変換する自己整合性フレームワークを提案する。ステップレベルの再結合は、難しい問題に対して最も有益であることがわかった。トレーニング不要のフレームワークは、6つの数学およびコーディングタスクの平均精度を最大2倍改善します。
論文参考訳（メタデータ） (2026-02-26T11:08:39Z)
CCQA: Generating Question from Solution Can Improve Inference-Time Reasoning in SLMs [14.97707719362011]
textbfQuestion textbfAnswering (CCQA)におけるtextbfCycle-textbf一貫性を提案する。 CCQAは、サイクル一貫性に着想を得て、各推論経路から質問を生成し、それぞれが元の質問と類似度で評価し、次に、最も類似度の高い候補解を最終応答として選択する。 CCQAは数学および常識推論ベンチマークにおいて8つのモデルで既存の最先端(SOTA)手法を一貫して上回っていることが確認された。
論文参考訳（メタデータ） (2025-09-23T02:01:03Z)
T$^2$: An Adaptive Test-Time Scaling Strategy for Contextual Question Answering [49.5489716597489]
T$2$: Think-to-Thinkは質問の複雑さに基づいて推論深度を動的に適応する新しいフレームワークである。 T$2$は、質問を構造的要素に分解し、候補推論戦略と同じような例を生成し、これらの戦略を複数の基準に対して評価し、元の質問に最も適切な戦略を適用する、という4つの重要なステップで機能する。
論文参考訳（メタデータ） (2025-05-23T03:18:02Z)
Thinkless: LLM Learns When to Think [57.857534644932194]
推論モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を示す。我々は,LLMが短文推論と長文推論を適応的に選択できる学習可能なフレームワークであるThinklessを提案する。 Minerva Algebra、MATH-500、GSM8Kなどのベンチマークでは、Thinklessはロングチェーン思考の使用を50%から90%削減することができる。
論文参考訳（メタデータ） (2025-05-19T17:24:16Z)
Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
Reasoning and Sampling-Augmented MCQ Difficulty Prediction via LLMs [1.749935196721634]
マルチチョイス質問(MCQ)の難易度を予測するための新しい2段階手法を提案する。まず、各MCQの複雑さをより正確に見積もるために、大きな言語モデル(LLM)を使用して、各オプションに到達するために必要な推論ステップを拡張します。第2に,MCQ に応答する学生の変動を考慮した分布から知識レベルを抽出する。
論文参考訳（メタデータ） (2025-03-11T15:39:43Z)
Option-ID Based Elimination For Multiple Choice Questions [12.30777266124562]
複数選択質問(MCQ)は、大規模言語モデル(LLM)を評価するために人気があり重要なタスクである。 MCQの回答に使用する共通戦略に基づいて, 効率的な問題解決手法として, 除去プロセス(PoE)が提案されている。本稿では,オプションIDに基づくPoEを提案する。
論文参考訳（メタデータ） (2025-01-25T11:06:37Z)
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文参考訳（メタデータ） (2024-12-30T18:55:12Z)
AutoReason: Automatic Few-Shot Reasoning Decomposition [0.0]
思考の連鎖(CoT)は、大規模言語モデルにおけるステップバイステップ推論を改善する手法として近年研究されている。本稿では,CoTを用いた合理性を自動生成するシステムを提案する。提案手法は,暗黙的クエリをいくつかの明示的な質問に分解することで,多段階の暗黙的推論能力を向上させる。
論文参考訳（メタデータ） (2024-12-09T20:35:39Z)
FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文参考訳（メタデータ） (2024-10-14T19:39:11Z)
AI-Assisted Generation of Difficult Math Questions [78.7547836422727]
現在の訓練は、数学的推論をコア能力として位置づけている。多様で挑戦的な数学の質問には、控えめな需要がある。本稿では,LLMの強みとHuman-in-the-loopアプローチを組み合わせた設計枠組みを提案する。
論文参考訳（メタデータ） (2024-07-30T17:55:36Z)
Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。このアプローチは、正しい答えが少数派である場合に失敗する。階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文参考訳（メタデータ） (2024-05-21T17:12:19Z)
Can multiple-choice questions really be useful in detecting the abilities of LLMs? [15.756543037102256]
大規模言語モデル(LLM)の評価には,MCQ(Multiple-choice Question)が広く用いられている。課題と評価方法のミスアライメントは,MCQの有効性の思慮深い分析を必要とする。質問応答(QA)データセットを中国語と英語の2言語で評価した。
論文参考訳（メタデータ） (2024-03-26T14:43:48Z)
PEDANTS: Cheap but Effective and Interpretable Answer Equivalence [10.367359022491181]
我々は,Triviaコミュニティで採用されているマシンQAを評価するために,ルーリックとデータセットを提供する。また、正確なマッチングとニューラルメソッド(BERTScore)よりも安定な、効率的で解釈可能なQA評価を提案する。
論文参考訳（メタデータ） (2024-02-17T01:56:19Z)
Training Chain-of-Thought via Latent-Variable Inference [30.21067593018967]
大規模言語モデル(LLM)は、チェーン・オブ・シンクレットのプロンプトを使って解答ステップを実行するように指示されたときに、より正確かつ解釈可能な問題を解決する。 CoTと教師付きチューニングを組み合わせるには、正しい回答だけでなく、それらの答えにつながる詳細な根拠の監督が必要である。そこで本研究では,CoTプロンプトを用いて正しい回答を生成することで,電子対数類似度を最大化するための微調整戦略を提案する。
論文参考訳（メタデータ） (2023-11-28T17:47:32Z)
Modularized Zero-shot VQA with Pre-trained Models [20.674979268279728]
本稿では,質問をサブ推論ステップに明示的に分解し,高度に解釈可能なモジュール化されたゼロショットネットワークを提案する。ゼロショット設定下での2つのVQAベンチマーク実験により,本手法の有効性が示された。
論文参考訳（メタデータ） (2023-05-27T05:00:14Z)
Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文参考訳（メタデータ） (2023-05-01T02:37:59Z)
Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies [78.68534915690404]
StrategyQAは、必要な推論ステップが問題に暗黙的であり、戦略を使用して推論されるべきベンチマークです。用語に基づくプライミングを組み合わせ、アノテーションーを刺激し、アノテーションーの集団を慎重に制御し、推論ショートカットを排除するための逆フィルタリングを行うデータ収集手順を提案する。総合的に、StrategyQAには2,780の例があり、それぞれが戦略問題、その分解、証拠パラグラフで構成されている。
論文参考訳（メタデータ） (2021-01-06T19:14:23Z)
Counterfactual Variable Control for Robust and Interpretable Question Answering [57.25261576239862]
ディープニューラルネットワークに基づく質問応答(QA)モデルは、多くの場合、堅牢でも説明もできない。本稿では、因果推論を用いてQAモデルのこのような突発的な「能力」を検証する。本稿では,任意のショートカット相関を明示的に緩和する,CVC(Counterfactual Variable Control)という新しい手法を提案する。
論文参考訳（メタデータ） (2020-10-12T10:09:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。