論文の概要: StrategyLLM: Large Language Models as Strategy Generators, Executors,
Optimizers, and Evaluators for Problem Solving
- arxiv url: http://arxiv.org/abs/2311.08803v2
- Date: Fri, 16 Feb 2024 08:06:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 19:54:52.851219
- Title: StrategyLLM: Large Language Models as Strategy Generators, Executors,
Optimizers, and Evaluators for Problem Solving
- Title(参考訳): StrategyLLM: 戦略生成器、実行器、最適化器および問題解決のための評価器としての大規模言語モデル
- Authors: Chang Gao, Haiyun Jiang, Deng Cai, Shuming Shi, Wai Lam
- Abstract要約: StrategyLLMは、様々なタスクに対して、一般化可能で一貫性のあるショットプロンプトを自動で構築する。
StrategyLLMは、戦略生成器、実行器、評価器、評価器の4つのLCMベースのエージェントを使用して、与えられたタスクに対して有望な戦略を生成し、評価し、選択する。
- 参考スコア(独自算出の注目度): 82.10729120212179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing chain-of-thought (CoT) prompting methods suffer from the issues
of generalizability and consistency, as they often rely on instance-specific
solutions that may not be applicable to other cases and lack task-level
consistency in their reasoning steps. To address these limitations, we propose
a comprehensive framework, StrategyLLM, harnessing the capabilities of LLMs to
construct generalizable and consistent few-shot prompts for various tasks
automatically. To this end, StrategyLLM employs four LLM-based agents: strategy
generator, executor, optimizer, and evaluator, working together to generate,
evaluate, and select promising strategies for a given task. The experimental
results demonstrate that StrategyLLM outperforms the competitive baseline
CoT-SC that requires human-annotated solutions on 13 datasets across 4
challenging tasks without human involvement, including math reasoning (34.21%
$\rightarrow$ 38.79%), commonsense reasoning (70.3% $\rightarrow$ 72.5%),
algorithmic reasoning (51.7% $\rightarrow$ 62.0%), and symbolic reasoning
(30.0% $\rightarrow$ 79.2%).
- Abstract(参考訳): 既存のchain-of-thought(cot)プロンプトメソッドの多くは、他のケースに適用できず、推論ステップでタスクレベルの一貫性を欠いたインスタンス固有のソリューションに依存することが多いため、汎用性と一貫性の問題に苦しんでいる。
これらの制限に対処するために,我々は,llmの機能を利用して様々なタスクに対して汎用的で一貫性のある数発プロンプトを自動的に構築する包括的フレームワークであるstrategyllmを提案する。
この目的のためにstrategyllmは、strategy generator、executor、optimizer、evaluatorの4つのllmベースのエージェントを使用して、与えられたタスクに対して有望な戦略を生成し、評価し、選択する。
実験の結果、StrategyLLMは、数学推論(34.21%$\rightarrow$38.79%)、コモンセンス推論(70.3%$\rightarrow$72.5%)、アルゴリズム推論(51.7%$\rightarrow$62.0%)、記号推論(30.0%$\rightarrow$79.2%)を含む、4つの課題を伴わない13のデータセットに、人間アノテートされたソリューションを必要とする競争ベースラインのCoT-SCよりも優れていた。
関連論文リスト
- Self-Discover: Large Language Models Self-Compose Reasoning Structures [136.48389510481758]
タスク固有の推論構造を自己発見するフレームワークであるSELF-DISCOVERを紹介する。
SELF-DISCOVERは、挑戦的推論ベンチマークにおいて、GPT-4とPaLM 2の性能を大幅に改善する。
自己発見推論構造は、モデルファミリー全体にわたって普遍的に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-02-06T01:13:53Z) - Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step
Reasoning [15.088675135566646]
自己整合性(Self-Consistency, SC)は、思考の連鎖推論のためのデコード戦略として広く用いられている。
我々は,SCのコストを大幅に削減する,シンプルでスケーラブルなサンプリングプロセスである textbfEarpping textbfSelf-textbfConsistency (ESC) を提案する。
論文 参考訳(メタデータ) (2024-01-19T04:03:59Z) - DRDT: Dynamic Reflection with Divergent Thinking for LLM-based
Sequential Recommendation [53.62727171363384]
進化的思考を伴う動的反射(Dynamic Reflection with Divergent Thinking)という新しい推論原理を導入する。
我々の方法論はダイナミックリフレクション(動的リフレクション)であり、探索、批評、反射を通じて人間の学習をエミュレートするプロセスである。
6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。
論文 参考訳(メタデータ) (2023-12-18T16:41:22Z) - Branch-Solve-Merge Improves Large Language Model Evaluation and
Generation [144.94236073326803]
大規模言語モデル(LLM)は多面的言語生成や評価タスクに頻繁に使用される。
本稿では,これらの課題に対処するための大規模言語モデルプログラムであるブランチ・マージ(BSM)を提案する。
BSMは、人間とLLMの合意を最大26%向上させることにより、各LLMの評価正当性と整合性を向上させる。
論文 参考訳(メタデータ) (2023-10-23T17:29:48Z) - A Comprehensive Evaluation of Tool-Assisted Generation Strategies [39.30954697422296]
ますます多くの研究が、その欠点を克服するためのツールによる言語モデルの拡張を調査している。
様々なツール利用戦略が提案されているが、体系的かつ公正な比較は行われていない。
私たちの発見は、少数ショットツールの統合が依然としてオープンな課題であることを示している。
論文 参考訳(メタデータ) (2023-10-16T04:53:22Z) - Risk-reducing design and operations toolkit: 90 strategies for managing
risk and uncertainty in decision problems [65.268245109828]
本稿では,このような戦略のカタログを開発し,それらのためのフレームワークを開発する。
高い不確実性のために難解であるように見える決定問題に対して、効率的な応答を提供する、と論じている。
次に、多目的最適化を用いた決定理論にそれらを組み込む枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-06T16:14:32Z) - TaskLAMA: Probing the Complex Task Understanding of Language Models [13.336015994186955]
構造化複雑タスク分解(Structured Complex Task Decomposition, SCTD)は、複雑な現実世界のタスクを、タスク達成に寄与する個々のステップ上の有向非巡回グラフに分解する問題である。
我々は,Large Language Models (LLMs) から抽出した知識を用いて,SCTDの精度を検証した。
実験の結果,LLMは複雑なタスクを個々のステップに効果的に分解できることがわかった。
論文 参考訳(メタデータ) (2023-08-29T13:36:45Z) - Math Programming based Reinforcement Learning for Multi-Echelon
Inventory Management [1.9161790404101895]
強化学習は、ロボット工学、ゲーム、その他多くの分野において、かなりのブレークスルーをもたらしている。
しかし、複雑な実世界の意思決定問題におけるRLの応用は依然として限られている。
これらの特徴は、ステップアクションの問題を解くために列挙法に依存する既存のRL法において、問題を解くのをかなり難しくする。
本研究では,不確実性分布の適切に選択された離散化が,不確実性からのサンプルがごく少ない場合でも,最適なアクターポリシーに近づきうることを示す。
PARLはベースストックを44.7%、RL法を12.1%上回っている。
論文 参考訳(メタデータ) (2021-12-04T01:40:34Z) - Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit
Reasoning Strategies [78.68534915690404]
StrategyQAは、必要な推論ステップが問題に暗黙的であり、戦略を使用して推論されるべきベンチマークです。
用語に基づくプライミングを組み合わせ、アノテーションーを刺激し、アノテーションーの集団を慎重に制御し、推論ショートカットを排除するための逆フィルタリングを行うデータ収集手順を提案する。
総合的に、StrategyQAには2,780の例があり、それぞれが戦略問題、その分解、証拠パラグラフで構成されている。
論文 参考訳(メタデータ) (2021-01-06T19:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。