Fugu-MT 論文翻訳(概要): StrategyLLM: Large Language Models as Strategy Generators, Executors, Optimizers, and Evaluators for Problem Solving

論文の概要: StrategyLLM: Large Language Models as Strategy Generators, Executors, Optimizers, and Evaluators for Problem Solving

arxiv url: http://arxiv.org/abs/2311.08803v2
Date: Fri, 16 Feb 2024 08:06:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 19:54:52.851219
Title: StrategyLLM: Large Language Models as Strategy Generators, Executors, Optimizers, and Evaluators for Problem Solving
Title（参考訳）: StrategyLLM: 戦略生成器、実行器、最適化器および問題解決のための評価器としての大規模言語モデル
Authors: Chang Gao, Haiyun Jiang, Deng Cai, Shuming Shi, Wai Lam
Abstract要約: StrategyLLMは、様々なタスクに対して、一般化可能で一貫性のあるショットプロンプトを自動で構築する。 StrategyLLMは、戦略生成器、実行器、評価器、評価器の4つのLCMベースのエージェントを使用して、与えられたタスクに対して有望な戦略を生成し、評価し、選択する。
参考スコア（独自算出の注目度）: 82.10729120212179
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Most existing chain-of-thought (CoT) prompting methods suffer from the issues of generalizability and consistency, as they often rely on instance-specific solutions that may not be applicable to other cases and lack task-level consistency in their reasoning steps. To address these limitations, we propose a comprehensive framework, StrategyLLM, harnessing the capabilities of LLMs to construct generalizable and consistent few-shot prompts for various tasks automatically. To this end, StrategyLLM employs four LLM-based agents: strategy generator, executor, optimizer, and evaluator, working together to generate, evaluate, and select promising strategies for a given task. The experimental results demonstrate that StrategyLLM outperforms the competitive baseline CoT-SC that requires human-annotated solutions on 13 datasets across 4 challenging tasks without human involvement, including math reasoning (34.21% $\rightarrow$ 38.79%), commonsense reasoning (70.3% $\rightarrow$ 72.5%), algorithmic reasoning (51.7% $\rightarrow$ 62.0%), and symbolic reasoning (30.0% $\rightarrow$ 79.2%).
Abstract（参考訳）: 既存のchain-of-thought(cot)プロンプトメソッドの多くは、他のケースに適用できず、推論ステップでタスクレベルの一貫性を欠いたインスタンス固有のソリューションに依存することが多いため、汎用性と一貫性の問題に苦しんでいる。これらの制限に対処するために,我々は,llmの機能を利用して様々なタスクに対して汎用的で一貫性のある数発プロンプトを自動的に構築する包括的フレームワークであるstrategyllmを提案する。この目的のためにstrategyllmは、strategy generator、executor、optimizer、evaluatorの4つのllmベースのエージェントを使用して、与えられたタスクに対して有望な戦略を生成し、評価し、選択する。実験の結果、StrategyLLMは、数学推論(34.21%$\rightarrow$38.79%)、コモンセンス推論(70.3%$\rightarrow$72.5%)、アルゴリズム推論(51.7%$\rightarrow$62.0%)、記号推論(30.0%$\rightarrow$79.2%)を含む、4つの課題を伴わない13のデータセットに、人間アノテートされたソリューションを必要とする競争ベースラインのCoT-SCよりも優れていた。

関連論文リスト

Expanding LLM Agent Boundaries with Strategy-Guided Exploration [51.98616048282804]
強化学習(RL)は、コンピュータ使用、ツール呼び出し、コーディングなどのタスクのエージェントとして、大規模言語モデル(LLM)の訓練後において顕著な成功を収めた。我々は,低レベルな行動から高レベルな言語戦略に移行するための戦略ガイド探索(SGE)を提案する。
論文参考訳（メタデータ） (2026-03-02T16:28:39Z)
Strategy Executability in Mathematical Reasoning: Leveraging Human-Model Differences for Effective Guidance [86.46794021499511]
戦略利用と戦略実行可能性の間には、これまで未定のギャップがある。 SSR(Selective Strategy Retrieval)は,実行可能性を明確にモデル化するテストタイムフレームワークである。 SSRは、直接解決、文脈内学習、単一ソースガイダンスよりも信頼性が高く一貫した改善をもたらす。
論文参考訳（メタデータ） (2026-02-26T03:34:23Z)
Beyond Fast and Slow: Cognitive-Inspired Elastic Reasoning for Large Language Models [39.03483371038282]
CogERは、人間の階層的推論にインスパイアされたフレームワークである。外部ツールを必要とするクエリに対して、Cognitive Tool-Assisted Reasoningを導入する。 CogERは最先端のTest-Timeスケーリングメソッドより優れています。
論文参考訳（メタデータ） (2025-12-17T05:11:58Z)
Plan before Solving: Problem-Aware Strategy Routing for Mathematical Reasoning with LLMs [49.995906301946]
既存の手法は通常、数学的推論を行うためにLLM(Large Language Models)をガイドするための固定戦略を利用する。分析の結果,単一戦略は問題固有の要件に適応できず,有効性と効率性のトレードオフを見落としていることが明らかとなった。本稿では,PRISM(Planning and Routing through Instance-Specific Modeling)を提案する。
論文参考訳（メタデータ） (2025-09-29T07:22:41Z)
Reasoning Strategies in Large Language Models: Can They Follow, Prefer, and Optimize? [5.589792999813676]
大規模言語モデル(LLM)は単一の推論戦略を好んでおり、様々な推論課題においてその有効性を制限している可能性がある。本稿では, LLMの推論戦略を制御し, 論理的問題解決への影響を評価できるかどうかを考察する。
論文参考訳（メタデータ） (2025-07-15T15:47:47Z)
T$^2$: An Adaptive Test-Time Scaling Strategy for Contextual Question Answering [49.5489716597489]
T$2$: Think-to-Thinkは質問の複雑さに基づいて推論深度を動的に適応する新しいフレームワークである。 T$2$は、質問を構造的要素に分解し、候補推論戦略と同じような例を生成し、これらの戦略を複数の基準に対して評価し、元の質問に最も適切な戦略を適用する、という4つの重要なステップで機能する。
論文参考訳（メタデータ） (2025-05-23T03:18:02Z)
Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Credit Assignment [29.617927643991877]
本稿では,強化学習(RL)を用いた大規模言語モデル(LLM)エージェントの推論能力向上のためのアプローチを検討する。マルチターンエージェントのインタラクションにおいて、より正確なクレジット割り当てを可能にするための、きめ細かいターンレベルの利点推定戦略を導入する。本手法は,ツール実行における100%の成功と,正解マッチングにおける50%の精度を実現し,ベースラインを著しく上回る結果を得た。
論文参考訳（メタデータ） (2025-05-17T04:09:46Z)
Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [55.330813919992465]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文参考訳（メタデータ） (2025-04-01T13:13:43Z)
HPSS: Heuristic Prompting Strategy Search for LLM Evaluators [81.09765876000208]
我々はHuristic Prompting Strategy Search (HPSS)と呼ばれる新しい自動プロンプト戦略最適化手法を提案する。遺伝的アルゴリズムにインスパイアされ、HPSSは反復探索を行い、評価者に対する適切な手順を見つける。 4つの評価課題にわたる大規模な実験により,HPSSの有効性が示された。
論文参考訳（メタデータ） (2025-02-18T16:46:47Z)
EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。 EPOはオープンなアクション空間で戦略を提供し、任意のLLMエージェントにプラグインすることで、ゴール指向の振る舞いを動機付けることができる。社会的および物理的領域にわたる実験は、EPOの長期的なゴールアライメント能力を示す。
論文参考訳（メタデータ） (2025-02-18T03:15:55Z)
Doing More with Less -- Implementing Routing Strategies in Large Language Model-Based Systems: An Extended Survey [1.430963201405577]
LLM(Large Language Models)ベースのシステムは、すべてのユーザクエリに対して単一のLLMに依存している。彼らはしばしば、異なる事前処理戦略、推論のレベル、あるいは知識を必要とします。本稿では,LLMシステムにルーティングを統合する上で重要な課題について考察する。
論文参考訳（メタデータ） (2025-02-01T12:08:38Z)
How Strategic Agents Respond: Comparing Analytical Models with LLM-Generated Responses in Strategic Classification [9.296248945826084]
我々は,大規模言語モデルによって生成された戦略的アドバイスを用いて,戦略分類における人間のエージェント応答をシミュレートする。我々は、雇用、ローン申請、学校入学、個人所得、公的支援プログラムの5つの重要なSCシナリオについて検討する。次に、得られたエージェント応答と、既存の理論モデルによって生成された最良の応答を比較する。
論文参考訳（メタデータ） (2025-01-20T01:39:03Z)
Planning Anything with Rigor: General-Purpose Zero-Shot Planning with LLM-based Formalized Programming [13.246017517159043]
大規模言語モデル(LLM)は近年,計画問題の解決に強い可能性を示している。 LLpreview は LLM を利用して,計画上の問題から重要な情報を抽出し,それらをスクラッチから最適化するフレームワークである。 GPToとClaude 3.5 Sonnetの9つのタスクに対して,LLpreviewが平均83.7%,86.8%の最適率で達成できることを実証した。
論文参考訳（メタデータ） (2024-10-15T23:20:54Z)
Strategic Chain-of-Thought: Guiding Accurate Reasoning in LLMs through Strategy Elicitation [16.350747493026432]
CoT(Chain-of-Thought)パラダイムは,大規模言語モデル(LLM)の推論能力向上のための重要なアプローチとして登場した。中間的推論ステップを生成する前に戦略的知識を統合することでLCM性能を向上するための textbfStrategic Chain-of-Thought (SCoT) を提案する。 SCoTは1つのプロンプトの中で2段階のアプローチを採用し、まず効果的な問題解決戦略を導き、次に高品質なCoTパスと最終回答の生成を導くのに使用される。
論文参考訳（メタデータ） (2024-09-05T06:28:05Z)
GRASP: A Grid-Based Benchmark for Evaluating Commonsense Spatial Reasoning [2.9312156642007294]
空間的推論は、純粋に言語ベースのものではなく、計画の最低限の程度を必要とする、中核的な常識スキルの1つである。既存のCSR(Commonsense Spatial Reasoning)ベンチマークでは、Large Language Models(LLM)がテキストベースの空間記述をどのように解釈するかを評価する傾向にある。我々は、エージェントがエネルギー収集問題に対処する16,000のグリッドベースの環境からなる、$textbfGRASP$という大規模なベンチマークを構築した。
論文参考訳（メタデータ） (2024-07-02T02:27:46Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。 MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。総合的なベンチマークによりMPPの有効性を評価する。
論文参考訳（メタデータ） (2024-06-17T16:14:11Z)
Self-Guiding Exploration for Combinatorial Problems [2.636330943305939]
自己ガイド探索(Self-Guiding Exploration, SGE)は, 組合せ問題の解法の性能向上を目的としている。 SGEは自律的に動作し、CPタスクごとに複数の思考軌道を生成する。その後、これらの軌道を動作可能なサブタスクに分解し、順次実行し、結果を洗練して最適な結果を保証する。
論文参考訳（メタデータ） (2024-05-28T08:26:54Z)
Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-05-03T14:38:59Z)
Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文参考訳（メタデータ） (2024-03-29T03:48:12Z)
DRDT: Dynamic Reflection with Divergent Thinking for LLM-based Sequential Recommendation [53.62727171363384]
進化的思考を伴う動的反射(Dynamic Reflection with Divergent Thinking)という新しい推論原理を導入する。我々の方法論はダイナミックリフレクション(動的リフレクション)であり、探索、批評、反射を通じて人間の学習をエミュレートするプロセスである。 6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。
論文参考訳（メタデータ） (2023-12-18T16:41:22Z)
Which is better? Exploring Prompting Strategy For LLM-based Metrics [6.681126871165601]
本稿では,DSBA が提案する Prompting Large Language Models を Explainable Metrics 共有タスクとして記述する。 BLEUやROUGEのような従来の類似性に基づくメトリクスは、人間の評価に悪影響を与えており、オープンな生成タスクには適していない。
論文参考訳（メタデータ） (2023-11-07T06:36:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。