Fugu-MT 論文翻訳(概要): StrategyLLM: Large Language Models as Strategy Generators, Executors, Optimizers, and Evaluators for Problem Solving

論文の概要: StrategyLLM: Large Language Models as Strategy Generators, Executors, Optimizers, and Evaluators for Problem Solving

arxiv url: http://arxiv.org/abs/2311.08803v1
Date: Wed, 15 Nov 2023 09:18:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-16 16:32:35.610425
Title: StrategyLLM: Large Language Models as Strategy Generators, Executors, Optimizers, and Evaluators for Problem Solving
Title（参考訳）: StrategyLLM: 戦略生成器、実行器、最適化器および問題解決のための評価器としての大規模言語モデル
Authors: Chang Gao, Haiyun Jiang, Deng Cai, Shuming Shi, Wai Lam
Abstract要約: 様々なタスクに対処するLLMの能力を活用した総合的なフレームワークであるStrategyLLMを提案する。このフレームワークは、一般的な問題解決戦略を定式化することによって一般化性を改善し、一貫したソリューションを生成することによって一貫性を高める。 StrategyLLMは、ストラテジージェネレータ、LLMアノテーション、エグゼキュータ、評価器の4つのエージェントを使用して、与えられたタスクに対して有望な戦略を生成し、評価し、選択する。
参考スコア（独自算出の注目度）: 82.10729120212179
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Most existing chain-of-thought (CoT) prompting methods suffer from the issues of generalizability and consistency, as they often rely on instance-specific solutions that may not be applicable to other cases and lack task-level consistency in their reasoning steps. To address these limitations, we propose a comprehensive framework, StrategyLLM, harnessing the capabilities of LLMs to tackle various tasks. The framework improves generalizability by formulating general problem-solving strategies and enhances consistency by producing consistent solutions using these strategies. StrategyLLM employs four LLM-based agents: strategy generator, executor, optimizer, and evaluator, working together to generate, evaluate, and select promising strategies for a given task automatically. The experimental results demonstrate that StrategyLLM outperforms the competitive baseline CoT-SC that requires human-annotated solutions on 13 datasets across 4 challenging tasks without human involvement, including math reasoning (39.2% $\rightarrow$ 43.3%), commonsense reasoning (70.3% $\rightarrow$ 72.5%), algorithmic reasoning (51.7% $\rightarrow$ 62.0%), and symbolic reasoning (30.0% $\rightarrow$ 79.2%).
Abstract（参考訳）: 既存のchain-of-thought(cot)プロンプトメソッドの多くは、他のケースに適用できず、推論ステップでタスクレベルの一貫性を欠いたインスタンス固有のソリューションに依存することが多いため、汎用性と一貫性の問題に苦しんでいる。これらの制約に対処するために,LLMの能力を利用して様々なタスクに対処する総合的なフレームワークであるStrategyLLMを提案する。このフレームワークは、一般的な問題解決戦略を定式化することによって一般化性を高め、これらの戦略を用いて一貫したソリューションを作成することによって一貫性を高める。 strategyllmは、strategy generator、executor、optimizer、evaluatorの4つのllmベースのエージェントを使用して、特定のタスクに対して有望な戦略を自動的に生成、評価、選択する。実験の結果、StrategyLLMは、数学推論(39.2%$\rightarrow$ 43.3%)、コモンセンス推論(70.3%$\rightarrow$ 72.5%)、アルゴリズム推論(51.7%$\rightarrow$ 62.0%)、記号推論(30.0%$\rightarrow$ 79.2%)を含む、4つの挑戦的なタスクにわたる13のデータセットに対して、人間によるアノテートソリューションを必要とする競争ベースラインのCoT-SCよりも優れていた。

関連論文リスト

Reasoning Strategies in Large Language Models: Can They Follow, Prefer, and Optimize? [5.589792999813676]
大規模言語モデル(LLM)は単一の推論戦略を好んでおり、様々な推論課題においてその有効性を制限している可能性がある。本稿では, LLMの推論戦略を制御し, 論理的問題解決への影響を評価できるかどうかを考察する。
論文参考訳（メタデータ） (2025-07-15T15:47:47Z)
T$^2$: An Adaptive Test-Time Scaling Strategy for Contextual Question Answering [49.5489716597489]
T$2$: Think-to-Thinkは質問の複雑さに基づいて推論深度を動的に適応する新しいフレームワークである。 T$2$は、質問を構造的要素に分解し、候補推論戦略と同じような例を生成し、これらの戦略を複数の基準に対して評価し、元の質問に最も適切な戦略を適用する、という4つの重要なステップで機能する。
論文参考訳（メタデータ） (2025-05-23T03:18:02Z)
Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Credit Assignment [29.617927643991877]
本稿では,強化学習(RL)を用いた大規模言語モデル(LLM)エージェントの推論能力向上のためのアプローチを検討する。マルチターンエージェントのインタラクションにおいて、より正確なクレジット割り当てを可能にするための、きめ細かいターンレベルの利点推定戦略を導入する。本手法は,ツール実行における100%の成功と,正解マッチングにおける50%の精度を実現し,ベースラインを著しく上回る結果を得た。
論文参考訳（メタデータ） (2025-05-17T04:09:46Z)
Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [55.330813919992465]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文参考訳（メタデータ） (2025-04-01T13:13:43Z)
HPSS: Heuristic Prompting Strategy Search for LLM Evaluators [81.09765876000208]
我々はHuristic Prompting Strategy Search (HPSS)と呼ばれる新しい自動プロンプト戦略最適化手法を提案する。遺伝的アルゴリズムにインスパイアされ、HPSSは反復探索を行い、評価者に対する適切な手順を見つける。 4つの評価課題にわたる大規模な実験により,HPSSの有効性が示された。
論文参考訳（メタデータ） (2025-02-18T16:46:47Z)
EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。 EPOはオープンなアクション空間で戦略を提供し、任意のLLMエージェントにプラグインすることで、ゴール指向の振る舞いを動機付けることができる。社会的および物理的領域にわたる実験は、EPOの長期的なゴールアライメント能力を示す。
論文参考訳（メタデータ） (2025-02-18T03:15:55Z)
Doing More with Less -- Implementing Routing Strategies in Large Language Model-Based Systems: An Extended Survey [1.430963201405577]
LLM(Large Language Models)ベースのシステムは、すべてのユーザクエリに対して単一のLLMに依存している。彼らはしばしば、異なる事前処理戦略、推論のレベル、あるいは知識を必要とします。本稿では,LLMシステムにルーティングを統合する上で重要な課題について考察する。
論文参考訳（メタデータ） (2025-02-01T12:08:38Z)
How Strategic Agents Respond: Comparing Analytical Models with LLM-Generated Responses in Strategic Classification [9.296248945826084]
我々は,大規模言語モデルによって生成された戦略的アドバイスを用いて,戦略分類における人間のエージェント応答をシミュレートする。我々は、雇用、ローン申請、学校入学、個人所得、公的支援プログラムの5つの重要なSCシナリオについて検討する。次に、得られたエージェント応答と、既存の理論モデルによって生成された最良の応答を比較する。
論文参考訳（メタデータ） (2025-01-20T01:39:03Z)
Planning Anything with Rigor: General-Purpose Zero-Shot Planning with LLM-based Formalized Programming [13.246017517159043]
大規模言語モデル(LLM)は近年,計画問題の解決に強い可能性を示している。 LLpreview は LLM を利用して,計画上の問題から重要な情報を抽出し,それらをスクラッチから最適化するフレームワークである。 GPToとClaude 3.5 Sonnetの9つのタスクに対して,LLpreviewが平均83.7%,86.8%の最適率で達成できることを実証した。
論文参考訳（メタデータ） (2024-10-15T23:20:54Z)
Strategic Chain-of-Thought: Guiding Accurate Reasoning in LLMs through Strategy Elicitation [16.350747493026432]
CoT(Chain-of-Thought)パラダイムは,大規模言語モデル(LLM)の推論能力向上のための重要なアプローチとして登場した。中間的推論ステップを生成する前に戦略的知識を統合することでLCM性能を向上するための textbfStrategic Chain-of-Thought (SCoT) を提案する。 SCoTは1つのプロンプトの中で2段階のアプローチを採用し、まず効果的な問題解決戦略を導き、次に高品質なCoTパスと最終回答の生成を導くのに使用される。
論文参考訳（メタデータ） (2024-09-05T06:28:05Z)
GRASP: A Grid-Based Benchmark for Evaluating Commonsense Spatial Reasoning [2.9312156642007294]
空間的推論は、純粋に言語ベースのものではなく、計画の最低限の程度を必要とする、中核的な常識スキルの1つである。既存のCSR(Commonsense Spatial Reasoning)ベンチマークでは、Large Language Models(LLM)がテキストベースの空間記述をどのように解釈するかを評価する傾向にある。我々は、エージェントがエネルギー収集問題に対処する16,000のグリッドベースの環境からなる、$textbfGRASP$という大規模なベンチマークを構築した。
論文参考訳（メタデータ） (2024-07-02T02:27:46Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。 MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。総合的なベンチマークによりMPPの有効性を評価する。
論文参考訳（メタデータ） (2024-06-17T16:14:11Z)
Self-Guiding Exploration for Combinatorial Problems [2.636330943305939]
自己ガイド探索(Self-Guiding Exploration, SGE)は, 組合せ問題の解法の性能向上を目的としている。 SGEは自律的に動作し、CPタスクごとに複数の思考軌道を生成する。その後、これらの軌道を動作可能なサブタスクに分解し、順次実行し、結果を洗練して最適な結果を保証する。
論文参考訳（メタデータ） (2024-05-28T08:26:54Z)
Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-05-03T14:38:59Z)
Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文参考訳（メタデータ） (2024-03-29T03:48:12Z)
DRDT: Dynamic Reflection with Divergent Thinking for LLM-based Sequential Recommendation [53.62727171363384]
進化的思考を伴う動的反射(Dynamic Reflection with Divergent Thinking)という新しい推論原理を導入する。我々の方法論はダイナミックリフレクション(動的リフレクション)であり、探索、批評、反射を通じて人間の学習をエミュレートするプロセスである。 6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。
論文参考訳（メタデータ） (2023-12-18T16:41:22Z)
Which is better? Exploring Prompting Strategy For LLM-based Metrics [6.681126871165601]
本稿では,DSBA が提案する Prompting Large Language Models を Explainable Metrics 共有タスクとして記述する。 BLEUやROUGEのような従来の類似性に基づくメトリクスは、人間の評価に悪影響を与えており、オープンな生成タスクには適していない。
論文参考訳（メタデータ） (2023-11-07T06:36:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。