Fugu-MT 論文翻訳(概要): ARIES: Autonomous Reasoning with LLMs on Interactive Thought Graph Environments

論文の概要: ARIES: Autonomous Reasoning with LLMs on Interactive Thought Graph Environments

arxiv url: http://arxiv.org/abs/2502.21208v1
Date: Fri, 28 Feb 2025 16:28:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-03 16:38:46.042957
Title: ARIES: Autonomous Reasoning with LLMs on Interactive Thought Graph Environments
Title（参考訳）: ARIES: インタラクティブな思考グラフ環境におけるLLMによる自律推論
Authors: Pedro Gimenes, Zeyu Cao, Jeffrey Wong, Yiren Zhao,
Abstract要約: LLMを用いた推論のためのマルチエージェントアーキテクチャであるARIESを紹介する。教師付き微調整(SFT)のない政策エージェントとして市販のLCMを使用することで,HumanEvalの精度が最大29%向上することが観察された。また、観測された障害モードの徹底的な解析を行い、LLMサイズと問題分解の深さの制限が、LLM誘導推論をスケールする上での課題であることを示した。
参考スコア（独自算出の注目度）: 7.508204100423766
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent research has shown that LLM performance on reasoning tasks can be enhanced by scaling test-time compute. One promising approach, particularly with decomposable problems, involves arranging intermediate solutions as a graph on which transformations are performed to explore the solution space. However, prior works rely on pre-determined, task-specific transformation schedules which are subject to a set of searched hyperparameters. In this work, we view thought graph transformations as actions in a Markov decision process, and implement policy agents to drive effective action policies for the underlying reasoning LLM agent. In particular, we investigate the ability for another LLM to act as a policy agent on thought graph environments and introduce ARIES, a multi-agent architecture for reasoning with LLMs. In ARIES, reasoning LLM agents solve decomposed subproblems, while policy LLM agents maintain visibility of the thought graph states, and dynamically adapt the problem-solving strategy. Through extensive experiments, we observe that using off-the-shelf LLMs as policy agents with no supervised fine-tuning (SFT) can yield up to $29\%$ higher accuracy on HumanEval relative to static transformation schedules, as well as reducing inference costs by $35\%$ and avoid any search requirements. We also conduct a thorough analysis of observed failure modes, highlighting that limitations on LLM sizes and the depth of problem decomposition can be seen as challenges to scaling LLM-guided reasoning.
Abstract（参考訳）: 近年の研究では、テスト時間計算のスケールアップにより、推論タスクにおけるLLM性能が向上できることが示されている。 1つの有望なアプローチ、特に分解可能な問題では、中間解を、解空間を探索するために変換を行うグラフとして配置する。しかしながら、事前決定されたタスク固有の変換スケジュールは、探索されたハイパーパラメータの集合に従わなければならない。本研究では、マルコフ決定過程における思考グラフ変換をアクションとみなし、基本的推論 LLM エージェントに対する効果的なアクションポリシーを駆動するためのポリシーエージェントを実装した。特に,LLMが思考グラフ環境におけるポリシーエージェントとして機能する能力について検討し,LLMを用いた推論のためのマルチエージェントアーキテクチャであるARIESを紹介する。 ARIESでは、LLMエージェントは分解したサブプロブレムを解き、ポリシーLLMエージェントは思考グラフ状態の可視性を維持し、問題解決戦略を動的に適用する。広範にわたる実験により,教師付き微調整(SFT)のないポリシーエージェントとして市販のLCMを使用することで,静的変換スケジュールに対するHumanEvalの精度が最大29.%向上し,推論コストを35.%削減し,検索要求を回避できることがわかった。また、観測された障害モードの徹底的な解析を行い、LLMサイズと問題分解の深さの制限が、LLM誘導推論をスケールする上での課題であることを示した。

関連論文リスト

Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文参考訳（メタデータ） (2025-07-26T07:53:11Z)
OR-LLM-Agent: Automating Modeling and Solving of Operations Research Optimization Problems with Reasoning LLM [15.260794368585692]
自動オペレーションリサーチ問題解決のためのLLMを推論するAIエージェントフレームワークであるOR-LLM-Agentを提案する。 GPT-o3, Gemini 2.5 Pro, DeepSeek-R1, ORLMなどの高度な手法よりも, OR-LLM-Agentの精度を7%以上向上させることを示す。
論文参考訳（メタデータ） (2025-03-13T03:40:50Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Position: Scaling LLM Agents Requires Asymptotic Analysis with LLM Primitives [8.713076928533846]
難しい問題をサブプロブレムに分解することで、解き易く、より効率的に解決できる。本稿は,LLMプリミティブを用いた解析が,そのようなシステムの効率性について考慮する必要があることを論じる。
論文参考訳（メタデータ） (2025-02-04T20:47:43Z)
Systematic Analysis of LLM Contributions to Planning: Solver, Verifier, Heuristic [6.687149103409949]
大規模言語モデル(LLM)が計画問題の解決にどのように貢献するかを系統的に分析する。解析の結果,LLMは最適計画を生成するのが難しいが,中間/不完全解に対してフィードバック信号を提供するのがはるかに優れていることがわかった。
論文参考訳（メタデータ） (2024-12-12T18:16:46Z)
EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文参考訳（メタデータ） (2024-10-08T17:54:03Z)
DOTS: Learning to Reason Dynamically in LLMs via Optimal Reasoning Trajectories Search [37.16633337724158]
DOTS は LLM が最適推論軌道探索によって動的に推論できるアプローチである。提案手法は静的推論手法とバニラ命令チューニング手法より一貫して優れている。
論文参考訳（メタデータ） (2024-10-04T18:58:09Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。 MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。総合的なベンチマークによりMPPの有効性を評価する。
論文参考訳（メタデータ） (2024-06-17T16:14:11Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
DiLA: Enhancing LLM Tool Learning with Differential Logic Layer [11.810200077863172]
本稿では,ネットワーク層の前方・後方通過に論理的制約を組み込むディファレンシャル・ロジック・レイヤ支援言語モデリング(DiLA)手法を提案する。 2つの古典的推論問題に対するDiLAの性能評価を行い、既存のプロンプトベースおよびソルバ支援アプローチに対する一貫した性能を実証した。
論文参考訳（メタデータ） (2024-02-19T07:38:57Z)
LgTS: Dynamic Task Sampling using LLM-generated sub-goals for Reinforcement Learning Agents [10.936460061405157]
LgTS (LLM-Guided Teacher-Student Learning) を提案する。提案手法では,提案したサブゴールを達成するための事前訓練されたポリシーも必要としない。
論文参考訳（メタデータ） (2023-10-14T00:07:03Z)
Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文参考訳（メタデータ） (2023-05-30T15:25:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。