論文の概要: StrategyLLM: Large Language Models as Strategy Generators, Executors,
Optimizers, and Evaluators for Problem Solving
- arxiv url: http://arxiv.org/abs/2311.08803v1
- Date: Wed, 15 Nov 2023 09:18:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 16:32:35.610425
- Title: StrategyLLM: Large Language Models as Strategy Generators, Executors,
Optimizers, and Evaluators for Problem Solving
- Title(参考訳): StrategyLLM: 戦略生成器、実行器、最適化器および問題解決のための評価器としての大規模言語モデル
- Authors: Chang Gao, Haiyun Jiang, Deng Cai, Shuming Shi, Wai Lam
- Abstract要約: 様々なタスクに対処するLLMの能力を活用した総合的なフレームワークであるStrategyLLMを提案する。
このフレームワークは、一般的な問題解決戦略を定式化することによって一般化性を改善し、一貫したソリューションを生成することによって一貫性を高める。
StrategyLLMは、ストラテジージェネレータ、LLMアノテーション、エグゼキュータ、評価器の4つのエージェントを使用して、与えられたタスクに対して有望な戦略を生成し、評価し、選択する。
- 参考スコア(独自算出の注目度): 82.10729120212179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing chain-of-thought (CoT) prompting methods suffer from the issues
of generalizability and consistency, as they often rely on instance-specific
solutions that may not be applicable to other cases and lack task-level
consistency in their reasoning steps. To address these limitations, we propose
a comprehensive framework, StrategyLLM, harnessing the capabilities of LLMs to
tackle various tasks. The framework improves generalizability by formulating
general problem-solving strategies and enhances consistency by producing
consistent solutions using these strategies. StrategyLLM employs four LLM-based
agents: strategy generator, executor, optimizer, and evaluator, working
together to generate, evaluate, and select promising strategies for a given
task automatically. The experimental results demonstrate that StrategyLLM
outperforms the competitive baseline CoT-SC that requires human-annotated
solutions on 13 datasets across 4 challenging tasks without human involvement,
including math reasoning (39.2% $\rightarrow$ 43.3%), commonsense reasoning
(70.3% $\rightarrow$ 72.5%), algorithmic reasoning (51.7% $\rightarrow$ 62.0%),
and symbolic reasoning (30.0% $\rightarrow$ 79.2%).
- Abstract(参考訳): 既存のchain-of-thought(cot)プロンプトメソッドの多くは、他のケースに適用できず、推論ステップでタスクレベルの一貫性を欠いたインスタンス固有のソリューションに依存することが多いため、汎用性と一貫性の問題に苦しんでいる。
これらの制約に対処するために,LLMの能力を利用して様々なタスクに対処する総合的なフレームワークであるStrategyLLMを提案する。
このフレームワークは、一般的な問題解決戦略を定式化することによって一般化性を高め、これらの戦略を用いて一貫したソリューションを作成することによって一貫性を高める。
strategyllmは、strategy generator、executor、optimizer、evaluatorの4つのllmベースのエージェントを使用して、特定のタスクに対して有望な戦略を自動的に生成、評価、選択する。
実験の結果、StrategyLLMは、数学推論(39.2%$\rightarrow$ 43.3%)、コモンセンス推論(70.3%$\rightarrow$ 72.5%)、アルゴリズム推論(51.7%$\rightarrow$ 62.0%)、記号推論(30.0%$\rightarrow$ 79.2%)を含む、4つの挑戦的なタスクにわたる13のデータセットに対して、人間によるアノテートソリューションを必要とする競争ベースラインのCoT-SCよりも優れていた。
関連論文リスト
- Planning Anything with Rigor: General-Purpose Zero-Shot Planning with LLM-based Formalized Programming [13.246017517159043]
大規模言語モデル(LLM)は近年,計画問題の解決に強い可能性を示している。
LLpreview は LLM を利用して,計画上の問題から重要な情報を抽出し,それらをスクラッチから最適化するフレームワークである。
GPToとClaude 3.5 Sonnetの9つのタスクに対して,LLpreviewが平均83.7%,86.8%の最適率で達成できることを実証した。
論文 参考訳(メタデータ) (2024-10-15T23:20:54Z) - Strategic Chain-of-Thought: Guiding Accurate Reasoning in LLMs through Strategy Elicitation [16.350747493026432]
CoT(Chain-of-Thought)パラダイムは,大規模言語モデル(LLM)の推論能力向上のための重要なアプローチとして登場した。
中間的推論ステップを生成する前に戦略的知識を統合することでLCM性能を向上するための textbfStrategic Chain-of-Thought (SCoT) を提案する。
SCoTは1つのプロンプトの中で2段階のアプローチを採用し、まず効果的な問題解決戦略を導き、次に高品質なCoTパスと最終回答の生成を導くのに使用される。
論文 参考訳(メタデータ) (2024-09-05T06:28:05Z) - GRASP: A Grid-Based Benchmark for Evaluating Commonsense Spatial Reasoning [2.9312156642007294]
空間的推論は、純粋に言語ベースのものではなく、計画の最低限の程度を必要とする、中核的な常識スキルの1つである。
既存のCSR(Commonsense Spatial Reasoning)ベンチマークでは、Large Language Models(LLM)がテキストベースの空間記述をどのように解釈するかを評価する傾向にある。
我々は、エージェントがエネルギー収集問題に対処する16,000のグリッドベースの環境からなる、$textbfGRASP$という大規模なベンチマークを構築した。
論文 参考訳(メタデータ) (2024-07-02T02:27:46Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - Self-Guiding Exploration for Combinatorial Problems [2.636330943305939]
自己ガイド探索(Self-Guiding Exploration, SGE)は, 組合せ問題の解法の性能向上を目的としている。
SGEは自律的に動作し、CPタスクごとに複数の思考軌道を生成する。
その後、これらの軌道を動作可能なサブタスクに分解し、順次実行し、結果を洗練して最適な結果を保証する。
論文 参考訳(メタデータ) (2024-05-28T08:26:54Z) - Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。
我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。
実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-03T14:38:59Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - DRDT: Dynamic Reflection with Divergent Thinking for LLM-based
Sequential Recommendation [53.62727171363384]
進化的思考を伴う動的反射(Dynamic Reflection with Divergent Thinking)という新しい推論原理を導入する。
我々の方法論はダイナミックリフレクション(動的リフレクション)であり、探索、批評、反射を通じて人間の学習をエミュレートするプロセスである。
6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。
論文 参考訳(メタデータ) (2023-12-18T16:41:22Z) - Which is better? Exploring Prompting Strategy For LLM-based Metrics [6.681126871165601]
本稿では,DSBA が提案する Prompting Large Language Models を Explainable Metrics 共有タスクとして記述する。
BLEUやROUGEのような従来の類似性に基づくメトリクスは、人間の評価に悪影響を与えており、オープンな生成タスクには適していない。
論文 参考訳(メタデータ) (2023-11-07T06:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。