Fugu-MT 論文翻訳(概要): Self-Discover: Large Language Models Self-Compose Reasoning Structures

論文の概要: Self-Discover: Large Language Models Self-Compose Reasoning Structures

arxiv url: http://arxiv.org/abs/2402.03620v1
Date: Tue, 6 Feb 2024 01:13:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 17:07:54.046438
Title: Self-Discover: Large Language Models Self-Compose Reasoning Structures
Title（参考訳）: 自己発見: 大きな言語モデル推論構造を自己組織化する
Authors: Pei Zhou, Jay Pujara, Xiang Ren, Xinyun Chen, Heng-Tze Cheng, Quoc V. Le, Ed H. Chi, Denny Zhou, Swaroop Mishra, Huaixiu Steven Zheng
Abstract要約: タスク固有の推論構造を自己発見するフレームワークであるSELF-DISCOVERを紹介する。 SELF-DISCOVERは、挑戦的推論ベンチマークにおいて、GPT-4とPaLM 2の性能を大幅に改善する。自己発見推論構造は、モデルファミリー全体にわたって普遍的に適用可能であることを示す。
参考スコア（独自算出の注目度）: 136.48389510481758
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce SELF-DISCOVER, a general framework for LLMs to self-discover the task-intrinsic reasoning structures to tackle complex reasoning problems that are challenging for typical prompting methods. Core to the framework is a self-discovery process where LLMs select multiple atomic reasoning modules such as critical thinking and step-by-step thinking, and compose them into an explicit reasoning structure for LLMs to follow during decoding. SELF-DISCOVER substantially improves GPT-4 and PaLM 2's performance on challenging reasoning benchmarks such as BigBench-Hard, grounded agent reasoning, and MATH, by as much as 32% compared to Chain of Thought (CoT). Furthermore, SELF-DISCOVER outperforms inference-intensive methods such as CoT-Self-Consistency by more than 20%, while requiring 10-40x fewer inference compute. Finally, we show that the self-discovered reasoning structures are universally applicable across model families: from PaLM 2-L to GPT-4, and from GPT-4 to Llama2, and share commonalities with human reasoning patterns.
Abstract（参考訳）: 本稿では, LLM の汎用フレームワークである SELF-DISCOVER を導入し, タスク固有の推論構造を自己発見し, 典型的なプロンプト手法では難しい複雑な推論問題に対処する。フレームワークの中核は自己発見プロセスであり、LCMは批判的思考やステップバイステップ思考などの複数のアトミック推論モジュールを選択し、それらを復号中に従うための明示的な推論構造に構成する。 SELF-DISCOVERは、BigBench-Hard、グラウンドドエージェント推論、MATHといった挑戦的推論ベンチマークに対して、GPT-4とPaLM 2のパフォーマンスを、Chain of Thought (CoT)と比較して32%改善した。さらに、自己発見は推論集約的な手法であるcot-self-consistencyを20%以上上回り、推論計算を10～40倍削減する。最後に, 自己発見推論構造は, PaLM 2-L から GPT-4 まで, GPT-4 から Llama2 まで, モデルファミリー全体にわたって普遍的に適用可能であることを示す。

関連論文リスト

From Query to Logic: Ontology-Driven Multi-Hop Reasoning in LLMs [3.828692258888057]
我々は、LLMの生成能力と知識グラフの構造的利点を組み合わせたトレーニングなしのフレームワークである**ORACLE* (**O**ntology-driven **R**easoning **A**nd **C*hain for **L*ogical **E**ucidationを提案する。実験の結果,私たちのフレームワークは,DeepSeek-R1のような最先端モデルに匹敵する,論理的に高い競争力を持つことがわかった。
論文参考訳（メタデータ） (2025-08-02T16:12:42Z)
OneEval: Benchmarking LLM Knowledge-intensive Reasoning over Diverse Knowledge Bases [38.58409057214189]
textbftextscOneEvalは、LLM(Large Language Models)の知識集約推論能力を評価するベンチマークである。 textscOneEvalは、慎重にキュレートされた4,019のインスタンスで構成され、特に難しいケースが1,285である、挑戦的なサブセットであるtextscOneEvaltextsubscriptHardを含んでいる。我々は、構造化知識推論の継続的な進歩を促進するためのリーダーボードを伴って、textscOneEvalデータセット、評価スクリプト、ベースライン結果を公開した。
論文参考訳（メタデータ） (2025-06-14T17:16:05Z)
CoT-RAG: Integrating Chain of Thought and Retrieval-Augmented Generation to Enhance Reasoning in Large Language Models [14.784841713647682]
CoT-RAGは3つの重要な設計を持つ新しい推論フレームワークである。知識グラフ駆動のCoT生成、学習可能な知識ケース対応RAG、擬似プログラム実行などを備えている。最先端の方法と比較すると、CoT-RAGは4.0%から23.0%の精度で大幅に改善されている。
論文参考訳（メタデータ） (2025-04-18T07:55:09Z)
RAG-Star: Enhancing Deliberative Reasoning with Retrieval Augmented Verification and Refinement [85.08223786819532]
既存の大規模言語モデル(LLM)は、例外的な問題解決能力を示すが、複雑な推論タスクに苦労する可能性がある。検索情報を統合した新しいRAG手法である textbfRAG-Star を提案する。 Llama-3.1-8B-Instruct と GPT-4o を併用した実験により,RAG-Star は従来のRAG と推理法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2024-12-17T13:05:36Z)
A NotSo Simple Way to Beat Simple Bench [0.0]
本稿では,大規模言語モデル(LLM)における推論能力向上のための新しい枠組みを提案する。モデル精度とロバスト性を改善するために,グローバルな整合性チェックと組み合わせたマルチステッププロンプト戦略を提案する。クロードは論理的整合性を維持するのに優れ, GPT-4oは探索的創造性を示すが, 曖昧なプロンプトに苦しむ。
論文参考訳（メタデータ） (2024-12-12T16:04:31Z)
RL-STaR: Theoretical Analysis of Reinforcement Learning Frameworks for Self-Taught Reasoner [2.779063752888881]
自己学習推論(STaR)フレームワークは、強化学習を使用して推論ステップを自動的に生成する。 STaRとその変種は経験的成功を示しているが、これらの改善を説明する理論的基盤は欠如している。この研究は、CoT推論とSTaRにおける強化学習の有効性を理解するための理論的枠組みを提供する。
論文参考訳（メタデータ） (2024-10-31T13:17:53Z)
Vision-Language Models Can Self-Improve Reasoning via Reflection [20.196406628954303]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上を実証した。本稿では,自己学習フレームワークR3Vを提案する。このフレームワークは,CoTレーショナル上でのリフレクションにより,モデルの視覚言語推論を反復的に強化する。提案手法は, 生成した解に対する自己回帰をサポートし, テスト時間計算による性能向上を図っている。
論文参考訳（メタデータ） (2024-10-30T14:45:00Z)
Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。大規模な実験により,提案システムの有効性が検証された。
論文参考訳（メタデータ） (2024-10-18T05:30:33Z)
LLMs Are Not Intelligent Thinkers: Introducing Mathematical Topic Tree Benchmark for Comprehensive Evaluation of LLMs [8.89259409245068]
大規模言語モデル(LLM)は、数学的推論において印象的な能力を示す。我々はMathematical Topics Tree (MaTT)ベンチマークを提示する。最上級モデルであるGPT-4は,複数選択シナリオにおいて,わずか54%の精度を達成した。
論文参考訳（メタデータ） (2024-06-07T18:21:26Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
LLM Reasoners: New Evaluation, Library, and Analysis of Step-by-Step Reasoning with Large Language Models [25.537725151112387]
完全自動推論チェーン評価のためのAutoRaceを導入する。既存の推論アルゴリズムと新しい推論アルゴリズムのモジュール実装を標準化するためのライブラリである LLM Reasoners も開発している。
論文参考訳（メタデータ） (2024-04-08T06:35:09Z)
Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文参考訳（メタデータ） (2024-02-17T05:22:56Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)
Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。 2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文参考訳（メタデータ） (2023-05-23T06:13:10Z)
Selection-Inference: Exploiting Large Language Models for Interpretable Logical Reasoning [14.663216851932646]
言語モデルは1ステップの推論タスクでかなりうまく機能する傾向があるが、より複雑な問題を解決するために複数の推論ステップをチェーン化するのに苦労している。本稿では,事前学習したLLMを汎用処理モジュールとして活用する選択推論(SI)フレームワークを提案する。 5ショットの一般化設定でSIフレームワーク内で使用する 7B パラメータ LLM が微調整なしで,100% 以上の性能向上が得られることを示す。
論文参考訳（メタデータ） (2022-05-19T17:25:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。