論文の概要: StrategyLLM: Large Language Models as Strategy Generators, Executors,
Optimizers, and Evaluators for Problem Solving
- arxiv url: http://arxiv.org/abs/2311.08803v1
- Date: Wed, 15 Nov 2023 09:18:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 16:32:35.610425
- Title: StrategyLLM: Large Language Models as Strategy Generators, Executors,
Optimizers, and Evaluators for Problem Solving
- Title(参考訳): StrategyLLM: 戦略生成器、実行器、最適化器および問題解決のための評価器としての大規模言語モデル
- Authors: Chang Gao, Haiyun Jiang, Deng Cai, Shuming Shi, Wai Lam
- Abstract要約: 様々なタスクに対処するLLMの能力を活用した総合的なフレームワークであるStrategyLLMを提案する。
このフレームワークは、一般的な問題解決戦略を定式化することによって一般化性を改善し、一貫したソリューションを生成することによって一貫性を高める。
StrategyLLMは、ストラテジージェネレータ、LLMアノテーション、エグゼキュータ、評価器の4つのエージェントを使用して、与えられたタスクに対して有望な戦略を生成し、評価し、選択する。
- 参考スコア(独自算出の注目度): 82.10729120212179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing chain-of-thought (CoT) prompting methods suffer from the issues
of generalizability and consistency, as they often rely on instance-specific
solutions that may not be applicable to other cases and lack task-level
consistency in their reasoning steps. To address these limitations, we propose
a comprehensive framework, StrategyLLM, harnessing the capabilities of LLMs to
tackle various tasks. The framework improves generalizability by formulating
general problem-solving strategies and enhances consistency by producing
consistent solutions using these strategies. StrategyLLM employs four LLM-based
agents: strategy generator, executor, optimizer, and evaluator, working
together to generate, evaluate, and select promising strategies for a given
task automatically. The experimental results demonstrate that StrategyLLM
outperforms the competitive baseline CoT-SC that requires human-annotated
solutions on 13 datasets across 4 challenging tasks without human involvement,
including math reasoning (39.2% $\rightarrow$ 43.3%), commonsense reasoning
(70.3% $\rightarrow$ 72.5%), algorithmic reasoning (51.7% $\rightarrow$ 62.0%),
and symbolic reasoning (30.0% $\rightarrow$ 79.2%).
- Abstract(参考訳): 既存のchain-of-thought(cot)プロンプトメソッドの多くは、他のケースに適用できず、推論ステップでタスクレベルの一貫性を欠いたインスタンス固有のソリューションに依存することが多いため、汎用性と一貫性の問題に苦しんでいる。
これらの制約に対処するために,LLMの能力を利用して様々なタスクに対処する総合的なフレームワークであるStrategyLLMを提案する。
このフレームワークは、一般的な問題解決戦略を定式化することによって一般化性を高め、これらの戦略を用いて一貫したソリューションを作成することによって一貫性を高める。
strategyllmは、strategy generator、executor、optimizer、evaluatorの4つのllmベースのエージェントを使用して、特定のタスクに対して有望な戦略を自動的に生成、評価、選択する。
実験の結果、StrategyLLMは、数学推論(39.2%$\rightarrow$ 43.3%)、コモンセンス推論(70.3%$\rightarrow$ 72.5%)、アルゴリズム推論(51.7%$\rightarrow$ 62.0%)、記号推論(30.0%$\rightarrow$ 79.2%)を含む、4つの挑戦的なタスクにわたる13のデータセットに対して、人間によるアノテートソリューションを必要とする競争ベースラインのCoT-SCよりも優れていた。
関連論文リスト
- Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。
我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。
実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-03T14:38:59Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - Paths to Equilibrium in Normal-Form Games [6.812247730094933]
マルチエージェント強化学習(MARL)では、エージェントは時間をかけて繰り返し対話し、新たなデータが到着するにつれて戦略を再検討する。
本稿では,強化学習における政策更新に触発された一対の制約を満たす戦略の列について検討する。
論文 参考訳(メタデータ) (2024-03-26T19:58:39Z) - Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step
Reasoning [15.088675135566646]
自己整合性(Self-Consistency, SC)は、思考の連鎖推論のためのデコード戦略として広く用いられている。
我々は,SCのコストを大幅に削減する,シンプルでスケーラブルなサンプリングプロセスである textbfEarpping textbfSelf-textbfConsistency (ESC) を提案する。
論文 参考訳(メタデータ) (2024-01-19T04:03:59Z) - DRDT: Dynamic Reflection with Divergent Thinking for LLM-based
Sequential Recommendation [53.62727171363384]
進化的思考を伴う動的反射(Dynamic Reflection with Divergent Thinking)という新しい推論原理を導入する。
我々の方法論はダイナミックリフレクション(動的リフレクション)であり、探索、批評、反射を通じて人間の学習をエミュレートするプロセスである。
6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。
論文 参考訳(メタデータ) (2023-12-18T16:41:22Z) - Branch-Solve-Merge Improves Large Language Model Evaluation and
Generation [144.94236073326803]
大規模言語モデル(LLM)は多面的言語生成や評価タスクに頻繁に使用される。
本稿では,これらの課題に対処するための大規模言語モデルプログラムであるブランチ・マージ(BSM)を提案する。
BSMは、人間とLLMの合意を最大26%向上させることにより、各LLMの評価正当性と整合性を向上させる。
論文 参考訳(メタデータ) (2023-10-23T17:29:48Z) - TaskLAMA: Probing the Complex Task Understanding of Language Models [13.336015994186955]
構造化複雑タスク分解(Structured Complex Task Decomposition, SCTD)は、複雑な現実世界のタスクを、タスク達成に寄与する個々のステップ上の有向非巡回グラフに分解する問題である。
我々は,Large Language Models (LLMs) から抽出した知識を用いて,SCTDの精度を検証した。
実験の結果,LLMは複雑なタスクを個々のステップに効果的に分解できることがわかった。
論文 参考訳(メタデータ) (2023-08-29T13:36:45Z) - Math Programming based Reinforcement Learning for Multi-Echelon
Inventory Management [1.9161790404101895]
強化学習は、ロボット工学、ゲーム、その他多くの分野において、かなりのブレークスルーをもたらしている。
しかし、複雑な実世界の意思決定問題におけるRLの応用は依然として限られている。
これらの特徴は、ステップアクションの問題を解くために列挙法に依存する既存のRL法において、問題を解くのをかなり難しくする。
本研究では,不確実性分布の適切に選択された離散化が,不確実性からのサンプルがごく少ない場合でも,最適なアクターポリシーに近づきうることを示す。
PARLはベースストックを44.7%、RL法を12.1%上回っている。
論文 参考訳(メタデータ) (2021-12-04T01:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。