論文の概要: LLM Reasoners: New Evaluation, Library, and Analysis of Step-by-Step Reasoning with Large Language Models
- arxiv url: http://arxiv.org/abs/2404.05221v2
- Date: Sun, 11 Aug 2024 22:20:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 23:27:39.160075
- Title: LLM Reasoners: New Evaluation, Library, and Analysis of Step-by-Step Reasoning with Large Language Models
- Title(参考訳): LLM推論器:大規模言語モデルを用いたステップバイステップ推論の新しい評価,ライブラリ,解析
- Authors: Shibo Hao, Yi Gu, Haotian Luo, Tianyang Liu, Xiyan Shao, Xinyuan Wang, Shuhua Xie, Haodi Ma, Adithya Samavedhi, Qiyue Gao, Zhen Wang, Zhiting Hu,
- Abstract要約: 完全自動推論チェーン評価のためのAutoRaceを導入する。
既存の推論アルゴリズムと新しい推論アルゴリズムのモジュール実装を標準化するためのライブラリである LLM Reasoners も開発している。
- 参考スコア(独自算出の注目度): 25.537725151112387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating accurate step-by-step reasoning is essential for Large Language Models (LLMs) to address complex problems and enhance robustness and interpretability. Despite the flux of research on developing advanced reasoning approaches, systematically analyzing the diverse LLMs and reasoning strategies in generating reasoning chains remains a significant challenge. The difficulties stem from the lack of two key elements: (1) an automatic method for evaluating the generated reasoning chains on different tasks, and (2) a unified formalism and implementation of the diverse reasoning approaches for systematic comparison. This paper aims to close the gap: (1) We introduce AutoRace for fully automated reasoning chain evaluation. Existing metrics rely on expensive human annotations or pre-defined LLM prompts not adaptable to different tasks. In contrast, AutoRace automatically creates detailed evaluation criteria tailored for each task, and uses GPT-4 for accurate evaluation following the criteria. (2) We develop LLM Reasoners, a library for standardized modular implementation of existing and new reasoning algorithms, under a unified formulation of the search, reward, and world model components. With the new evaluation and library, (3) we conduct extensive study of different reasoning approaches (e.g., CoT, ToT, RAP). The analysis reveals interesting findings about different factors contributing to reasoning, including the reward-guidance, breadth-vs-depth in search, world model, and prompt formats, etc.
- Abstract(参考訳): 複雑な問題に対処し、堅牢性と解釈可能性を高めるために、LLM(Large Language Models)には正確なステップバイステップ推論を生成することが不可欠である。
先進的な推論手法の開発に関する研究が山積しているにもかかわらず、多種多様なLCMを体系的に分析し、推論連鎖を生成するための推論戦略は重要な課題である。
課題は,(1)異なるタスク上で生成された推論連鎖を自動評価する手法,(2)体系的比較のための多種多様な推論アプローチの統一的な形式化と実装の2つの重要な要素の欠如に起因している。
本稿では,(1)完全自動推論チェーン評価のためのAutoRaceを導入する。
既存のメトリクスは、高価なヒューマンアノテーションや事前定義されたLCMプロンプトに依存しているため、異なるタスクに適応できない。
対照的にAutoRaceは、各タスクに適した詳細な評価基準を自動的に作成し、基準に従って正確な評価を行うためにGPT-4を使用する。
2) LLM Reasonersは,検索,報酬,世界モデルコンポーネントの統一的な定式化の下で,既存の推論アルゴリズムと新しい推論アルゴリズムのモジュール実装を標準化したライブラリである。
新しい評価とライブラリーにより,(3)異なる推論手法(例えば,CoT,ToT,RAP)について広範な研究を行う。
この分析は、報酬誘導、検索の幅広さ、世界モデル、プロンプトフォーマットなど、推論に寄与するさまざまな要因に関する興味深い知見を明らかにしている。
関連論文リスト
- Elevating Legal LLM Responses: Harnessing Trainable Logical Structures and Semantic Knowledge with Legal Reasoning [19.477062052536887]
意味と論理的コヒーレンスを橋渡しする教師ありフレームワークである論理・意味統合モデル(LSIM)を提案する。
LSIMは3つの要素から構成される: 強化学習は各質問に対して構造化されたファクトルールチェーンを予測し、訓練可能なDeep Structured Semantic Model(DSSM)は最も関連性の高い質問を検索し、回答内学習は最終回答を生成する。
LSIMが従来の手法に比べて精度と信頼性を著しく向上させるような,自動測定と人的評価デーモンレートによる実世界の法的データセットのQA検証実験を行った。
論文 参考訳(メタデータ) (2025-02-11T19:33:07Z) - Advancing Reasoning in Large Language Models: Promising Methods and Approaches [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて著しく成功している。
複雑な推論スパンニング論理推論、数学的問題解決、コモンセンス推論、そして多段階推論を実行する能力は、人間の期待に届かない。
本調査は, LLMにおける推論向上技術に関する総合的なレビューを提供する。
論文 参考訳(メタデータ) (2025-02-05T23:31:39Z) - JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
我々は、大言語モデルの厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。
JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。
実験の結果,ほとんどのSOTA (State-of-the-art (SOTA) LLMは人体平均よりも著しく低下していることがわかった。
論文 参考訳(メタデータ) (2025-01-24T15:49:10Z) - System-2 Mathematical Reasoning via Enriched Instruction Tuning [13.672967091915181]
Enriched Instruction Tuning (EIT) は、人間とAIのフィードバックを相乗化することによって、既存の人間の注釈付き数学的データセットを充実させる手法である。
EITはGSM8Kで84.1%、MATHで32.5%の精度を達成し、最先端の微調整およびプロンプト法を超越している。
論文 参考訳(メタデータ) (2024-12-22T10:49:27Z) - Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。
複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。
大規模な実験により,提案システムの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-18T05:30:33Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。