論文の概要: Divide and Conquer for Large Language Models Reasoning
- arxiv url: http://arxiv.org/abs/2401.05190v1
- Date: Wed, 10 Jan 2024 14:38:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 14:32:29.197238
- Title: Divide and Conquer for Large Language Models Reasoning
- Title(参考訳): 大規模言語モデル推論のための分割と克服
- Authors: Zijie Meng, Yan Zhang, Zhaopeng Feng, Yang Feng, Gaoang Wang, Joey
Tianyi Zhou, Jian Wu, Zuozhu Liu
- Abstract要約: 本稿では,大言語モデルにDivide and Conquer戦略を適用することを提案する。
まず、統計的信頼度スコアに基づいて、質問を異なるサブセットに分割する。
そして、ほぼ解決された集合を修正し、精巧に設計された手法で要求されるニュアンス処理を克服します。
- 参考スコア(独自算出の注目度): 53.27384085738965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown impressive performance in various
reasoning benchmarks with the emergence of Chain-of-Thought (CoT) and its
derivative methods, particularly in tasks involving multi-choice questions
(MCQs). However, current works all process data uniformly without considering
the problem-solving difficulty, which means an excessive focus on simple
questions while insufficient to intricate ones. To address this challenge, we
inspired by humans using heuristic strategies to categorize tasks and handle
them individually, propose to apply the Divide and Conquer to LLMs reasoning.
First, we divide questions into different subsets based on the statistical
confidence score ($\mathcal{CS}$), then fix nearly resolved sets and conquer
demanding nuanced process ones with elaborately designed methods, including
Prior Knowledge based Reasoning (PKR) and Filter Choices based Reasoning (FCR),
as well as their integration variants. Our experiments demonstrate that this
proposed strategy significantly boosts the models' reasoning abilities across
nine datasets involving arithmetic, commonsense, and logic tasks. For instance,
compared to baseline, we make a striking improvement on low confidence subsets
of 8.72\% for AQuA, 15.07\% for ARC Challenge and 7.71\% for RiddleSense. In
addition, through extensive analysis on length of rationale and number of
options, we verify that longer reasoning paths in PKR could prevent models from
referring infer-harmful shortcuts, and also find that removing irrelevant
choices in FCR would substantially avoid models' confusion. The code is at
\url{https://github.com/AiMijie/Divide-and-Conquer}
- Abstract(参考訳): 大規模言語モデル (LLM) は, チェイン・オブ・ソート (CoT) の出現に伴う様々な推論ベンチマークにおいて, 特にマルチチョイス質問 (MCQ) に関わるタスクにおいて, 顕著な性能を示した。
しかしながら、現在の処理は、問題解決の困難さを考慮せずに、すべてのデータを均一に処理する。
この課題に対処するために、私たちはヒューリスティックな戦略を使ってタスクを分類し、個別に処理し、DivideとConquerをLSMの推論に適用することを提案する。
まず、質問を統計的信頼度スコア (\mathcal{cs}$) に基づいて異なるサブセットに分割する。次に、ほぼ解決された集合を修正し、事前知識ベース推論 (pkr) やフィルタ選択ベース推論 (fcr) を含む精巧に設計された手法で、不要なプロセスを克服する。
実験の結果,提案手法は算術,コモンセンス,論理タスクを含む9つのデータセットにまたがって,モデルの推論能力を大幅に向上させることがわかった。
例えば、ベースラインと比較して、AQuAでは8.72\%、ARC Challengeでは15.07\%、RiddleSenseでは7.71\%という低信頼サブセットが大幅に改善されています。
さらに, 有理数長と選択肢数長を広範囲に解析することにより, PKRの長い推論経路が, モデルが害のないショートカットを参照することを防ぐこと, FCRにおける無関係な選択の除去が, モデルの混乱を著しく回避することを確認する。
コードは \url{https://github.com/AiMijie/Divide-and-Conquer} にある。
関連論文リスト
- FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - AI-Assisted Generation of Difficult Math Questions [78.7547836422727]
現在の訓練は、数学的推論をコア能力として位置づけている。
多様で挑戦的な数学の質問には、控えめな需要がある。
本稿では,LLMの強みとHuman-in-the-loopアプローチを組み合わせた設計枠組みを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:55:36Z) - Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。
このアプローチは、正しい答えが少数派である場合に失敗する。
階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文 参考訳(メタデータ) (2024-05-21T17:12:19Z) - Can multiple-choice questions really be useful in detecting the abilities of LLMs? [15.756543037102256]
大規模言語モデル(LLM)の評価には,MCQ(Multiple-choice Question)が広く用いられている。
課題と評価方法のミスアライメントは,MCQの有効性の思慮深い分析を必要とする。
質問応答(QA)データセットを中国語と英語の2言語で評価した。
論文 参考訳(メタデータ) (2024-03-26T14:43:48Z) - PEDANTS: Cheap but Effective and Interpretable Answer Equivalence [10.367359022491181]
我々は,Triviaコミュニティで採用されているマシンQAを評価するために,ルーリックとデータセットを提供する。
また、正確なマッチングとニューラルメソッド(BERTScore)よりも安定な、効率的で解釈可能なQA評価を提案する。
論文 参考訳(メタデータ) (2024-02-17T01:56:19Z) - Training Chain-of-Thought via Latent-Variable Inference [30.21067593018967]
大規模言語モデル(LLM)は、チェーン・オブ・シンクレットのプロンプトを使って解答ステップを実行するように指示されたときに、より正確かつ解釈可能な問題を解決する。
CoTと教師付きチューニングを組み合わせるには、正しい回答だけでなく、それらの答えにつながる詳細な根拠の監督が必要である。
そこで本研究では,CoTプロンプトを用いて正しい回答を生成することで,電子対数類似度を最大化するための微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-11-28T17:47:32Z) - Modularized Zero-shot VQA with Pre-trained Models [20.674979268279728]
本稿では,質問をサブ推論ステップに明示的に分解し,高度に解釈可能なモジュール化されたゼロショットネットワークを提案する。
ゼロショット設定下での2つのVQAベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-27T05:00:14Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit
Reasoning Strategies [78.68534915690404]
StrategyQAは、必要な推論ステップが問題に暗黙的であり、戦略を使用して推論されるべきベンチマークです。
用語に基づくプライミングを組み合わせ、アノテーションーを刺激し、アノテーションーの集団を慎重に制御し、推論ショートカットを排除するための逆フィルタリングを行うデータ収集手順を提案する。
総合的に、StrategyQAには2,780の例があり、それぞれが戦略問題、その分解、証拠パラグラフで構成されている。
論文 参考訳(メタデータ) (2021-01-06T19:14:23Z) - Counterfactual Variable Control for Robust and Interpretable Question
Answering [57.25261576239862]
ディープニューラルネットワークに基づく質問応答(QA)モデルは、多くの場合、堅牢でも説明もできない。
本稿では、因果推論を用いてQAモデルのこのような突発的な「能力」を検証する。
本稿では,任意のショートカット相関を明示的に緩和する,CVC(Counterfactual Variable Control)という新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T10:09:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。