論文の概要: StrategyLLM: Large Language Models as Strategy Generators, Executors, Optimizers, and Evaluators for Problem Solving
- arxiv url: http://arxiv.org/abs/2311.08803v4
- Date: Sat, 09 Nov 2024 13:52:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:04:36.935395
- Title: StrategyLLM: Large Language Models as Strategy Generators, Executors, Optimizers, and Evaluators for Problem Solving
- Title(参考訳): StrategyLLM: 戦略生成器、実行器、最適化器および問題解決のための評価器としての大規模言語モデル
- Authors: Chang Gao, Haiyun Jiang, Deng Cai, Shuming Shi, Wai Lam,
- Abstract要約: StrategyLLM は LLM が帰納的推論、特定のタスクインスタンスからの一般的な戦略の導出、帰納的推論を可能にし、これらの一般的な戦略を特定のタスク例に適用し、一般化可能で一貫した数発のプロンプトを構築する。
実験の結果、StrategyLLMは、数学推論(34.2%$rightarrow$38.8%)、コモンセンス推論(70.3%$rightarrow$72.5%)、アルゴリズム推論(73.7%$rightarrow$85.0)を含む、4つの難しいタスクにまたがる13のデータセットに対して、人間によるアノテートソリューションを必要とする競争ベースラインのCoT-SCよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 76.5322280307861
- License:
- Abstract: Most existing prompting methods suffer from the issues of generalizability and consistency, as they often rely on instance-specific solutions that may not be applicable to other instances and lack task-level consistency across the selected few-shot examples. To address these limitations, we propose a comprehensive framework, StrategyLLM, allowing LLMs to perform inductive reasoning, deriving general strategies from specific task instances, and deductive reasoning, applying these general strategies to particular task examples, for constructing generalizable and consistent few-shot prompts. It employs four LLM-based agents: strategy generator, executor, optimizer, and evaluator, working together to generate, evaluate, and select promising strategies for a given task. Experimental results demonstrate that StrategyLLM outperforms the competitive baseline CoT-SC that requires human-annotated solutions on 13 datasets across 4 challenging tasks without human involvement, including math reasoning (34.2\% $\rightarrow$ 38.8\%), commonsense reasoning (70.3\% $\rightarrow$ 72.5\%), algorithmic reasoning (73.7\% $\rightarrow$ 85.0\%), and symbolic reasoning (30.0\% $\rightarrow$ 79.2\%). Further analysis reveals that StrategyLLM is applicable to various LLMs and demonstrates advantages across numerous scenarios.
- Abstract(参考訳): ほとんどの既存のプロンプトメソッドは、汎用性と一貫性の問題に悩まされており、多くの場合、他のインスタンスには適用できず、選択されたいくつかの例でタスクレベルの一貫性が欠如しているインスタンス固有のソリューションに依存している。
これらの制約に対処するため、我々は総合的なフレームワークであるStrategyLLMを提案し、LLMが帰納的推論を実行し、特定のタスクインスタンスから一般的な戦略を導出し、帰納的推論を行い、これらの一般的な戦略を特定のタスク例に適用し、一般化可能で一貫したショットプロンプトを構築する。
戦略ジェネレータ、エグゼキュータ、オプティマイザ、評価器の4つのLCMベースのエージェントを使用して、与えられたタスクに対して有望な戦略を生成し、評価し、選択する。
実験の結果、StrategyLLMは、数学推論(34.2\% $\rightarrow$ 38.8\%)、コモンセンス推論(70.3\% $\rightarrow$ 72.5\%)、アルゴリズム推論(73.7\% $\rightarrow$ 85.0\%)、シンボリック推論(30.0\% $\rightarrow$ 79.2\%)を含む、難題な4つのタスクにわたる13のデータセットに、人間アノテートされたソリューションを必要とする競争ベースラインのCoT-SCよりも優れていた。
さらなる分析により、StrategyLLMは様々なLLMに適用可能であることが示され、多くのシナリオにまたがる利点を示している。
関連論文リスト
- Planning Anything with Rigor: General-Purpose Zero-Shot Planning with LLM-based Formalized Programming [13.246017517159043]
大規模言語モデル(LLM)は近年,計画問題の解決に強い可能性を示している。
LLpreview は LLM を利用して,計画上の問題から重要な情報を抽出し,それらをスクラッチから最適化するフレームワークである。
GPToとClaude 3.5 Sonnetの9つのタスクに対して,LLpreviewが平均83.7%,86.8%の最適率で達成できることを実証した。
論文 参考訳(メタデータ) (2024-10-15T23:20:54Z) - Strategic Chain-of-Thought: Guiding Accurate Reasoning in LLMs through Strategy Elicitation [16.350747493026432]
CoT(Chain-of-Thought)パラダイムは,大規模言語モデル(LLM)の推論能力向上のための重要なアプローチとして登場した。
中間的推論ステップを生成する前に戦略的知識を統合することでLCM性能を向上するための textbfStrategic Chain-of-Thought (SCoT) を提案する。
SCoTは1つのプロンプトの中で2段階のアプローチを採用し、まず効果的な問題解決戦略を導き、次に高品質なCoTパスと最終回答の生成を導くのに使用される。
論文 参考訳(メタデータ) (2024-09-05T06:28:05Z) - GRASP: A Grid-Based Benchmark for Evaluating Commonsense Spatial Reasoning [2.9312156642007294]
空間的推論は、純粋に言語ベースのものではなく、計画の最低限の程度を必要とする、中核的な常識スキルの1つである。
既存のCSR(Commonsense Spatial Reasoning)ベンチマークでは、Large Language Models(LLM)がテキストベースの空間記述をどのように解釈するかを評価する傾向にある。
我々は、エージェントがエネルギー収集問題に対処する16,000のグリッドベースの環境からなる、$textbfGRASP$という大規模なベンチマークを構築した。
論文 参考訳(メタデータ) (2024-07-02T02:27:46Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - Self-Guiding Exploration for Combinatorial Problems [2.636330943305939]
自己ガイド探索(Self-Guiding Exploration, SGE)は, 組合せ問題の解法の性能向上を目的としている。
SGEは自律的に動作し、CPタスクごとに複数の思考軌道を生成する。
その後、これらの軌道を動作可能なサブタスクに分解し、順次実行し、結果を洗練して最適な結果を保証する。
論文 参考訳(メタデータ) (2024-05-28T08:26:54Z) - Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。
我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。
実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-03T14:38:59Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - DRDT: Dynamic Reflection with Divergent Thinking for LLM-based
Sequential Recommendation [53.62727171363384]
進化的思考を伴う動的反射(Dynamic Reflection with Divergent Thinking)という新しい推論原理を導入する。
我々の方法論はダイナミックリフレクション(動的リフレクション)であり、探索、批評、反射を通じて人間の学習をエミュレートするプロセスである。
6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。
論文 参考訳(メタデータ) (2023-12-18T16:41:22Z) - Which is better? Exploring Prompting Strategy For LLM-based Metrics [6.681126871165601]
本稿では,DSBA が提案する Prompting Large Language Models を Explainable Metrics 共有タスクとして記述する。
BLEUやROUGEのような従来の類似性に基づくメトリクスは、人間の評価に悪影響を与えており、オープンな生成タスクには適していない。
論文 参考訳(メタデータ) (2023-11-07T06:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。