Fugu-MT 論文翻訳(概要): PRACT: Optimizing Principled Reasoning and Acting of LLM Agent

論文の概要: PRACT: Optimizing Principled Reasoning and Acting of LLM Agent

arxiv url: http://arxiv.org/abs/2410.18528v1
Date: Thu, 24 Oct 2024 08:21:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.816853
Title: PRACT: Optimizing Principled Reasoning and Acting of LLM Agent
Title（参考訳）: PRACT: LLMエージェントの原理推論と作用の最適化
Authors: Zhiwei Liu, Weiran Yao, Jianguo Zhang, Rithesh Murthy, Liangwei Yang, Zuxin Liu, Tian Lan, Ming Zhu, Juntao Tan, Shirley Kokane, Thai Hoang, Juan Carlos Niebles, Shelby Heinecke, Huan Wang, Silvio Savarese, Caiming Xiong,
Abstract要約: 本稿では、軌道データから行動原理を学習し、強制するための新しい手法である、原則推論と行為(PRAct)フレームワークを紹介する。我々は,行動原理を特定のタスク要求に適応させるため,新しい最適化フレームワークであるリフレクティブ原則最適化(RPO)を提案する。 4つの環境にまたがる実験の結果、PRActエージェントは、RPOフレームワークを活用し、効果的に学習し、パフォーマンスを高めるためにアクション原則を適用します。
参考スコア（独自算出の注目度）: 96.10771520261596
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce the Principled Reasoning and Acting (PRAct) framework, a novel method for learning and enforcing action principles from trajectory data. Central to our approach is the use of text gradients from a reflection and optimization engine to derive these action principles. To adapt action principles to specific task requirements, we propose a new optimization framework, Reflective Principle Optimization (RPO). After execution, RPO employs a reflector to critique current action principles and an optimizer to update them accordingly. We develop the RPO framework under two scenarios: Reward-RPO, which uses environmental rewards for reflection, and Self-RPO, which conducts self-reflection without external rewards. Additionally, two RPO methods, RPO-Traj and RPO-Batch, is introduced to adapt to different settings. Experimental results across four environments demonstrate that the PRAct agent, leveraging the RPO framework, effectively learns and applies action principles to enhance performance.
Abstract（参考訳）: 本稿では、軌道データから行動原理を学習し、強制するための新しい手法である、原則推論と行為(PRAct)フレームワークを紹介する。私たちのアプローチの中心は、これらのアクション原則を導出するためにリフレクションと最適化エンジンからのテキスト勾配を使うことです。本稿では,行動原理を特定のタスク要求に適応させるために,新たな最適化フレームワークであるリフレクティブ原理最適化(RPO)を提案する。実行後、RPOは現在のアクション原則を批判するリフレクタと、それに従って更新するオプティマイザを採用する。環境報奨を反射に利用するReward-RPOと、外部報奨なしで自己報奨を行うSelf-RPOの2つのシナリオでRPOフレームワークを開発する。さらに、RPO-Traj と RPO-Batch という2つの RPO メソッドが異なる設定に適応するために導入された。 4つの環境にまたがる実験の結果、PRActエージェントは、RPOフレームワークを活用し、効果的に学習し、パフォーマンスを高めるためにアクション原則を適用します。

関連論文リスト

Reward-aware Preference Optimization: A Unified Mathematical Framework for Model Alignment [45.45508377432791]
本稿では、人気のある選好最適化手法を統合する数学的フレームワークであるReward-Aware Preference Optimization (RPO)を紹介する。 RPOは、様々な設計選択の影響を混乱させ、体系的に研究するための構造化されたアプローチを提供する。そこで我々は,このような設計選択をクリーンかつ直接アブレーションできる新しい実験装置を提案する。
論文参考訳（メタデータ） (2025-01-31T22:39:04Z)
Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。 LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文参考訳（メタデータ） (2025-01-23T16:37:44Z)
Reflective Policy Optimization [20.228281670899204]
リフレクティブポリシー最適化(RPO) 政策最適化のための過去と将来の状態対応情報。 RPOはエージェントにイントロスペクションの権限を与え、現在の状態内でのアクションの変更を可能にする。 RPOの有効性と有効性は2つの強化学習ベンチマークで実証された。
論文参考訳（メタデータ） (2024-06-06T01:46:49Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
DPO: Differential reinforcement learning with application to optimal configuration search [3.2857981869020327]
連続状態と行動空間による強化学習は、この分野における最も困難な問題の1つである。限られたトレーニングサンプルと短いエピソードで設定を処理できる最初の微分RLフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-24T03:11:12Z)
Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-12-18T18:58:42Z)
Counterfactual Explanation Policies in RL [3.674863913115432]
COUNTERPOLは、反実的説明を用いて強化学習ポリシーを分析する最初のフレームワークである。 RLにおけるCounterpolと広く利用されている信頼領域ベースのポリシー最適化手法の理論的関係を確立する。
論文参考訳（メタデータ） (2023-07-25T01:14:56Z)
Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文参考訳（メタデータ） (2023-07-20T09:05:46Z)
Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。 ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文参考訳（メタデータ） (2023-02-23T10:48:09Z)
REPTILE: A Proactive Real-Time Deep Reinforcement Learning Self-adaptive Framework [0.6335848702857039]
動作環境の変化に応じて動作を適応できるソフトウェアシステムの開発を支援するための一般的なフレームワークが提案されている。提案されたアプローチはREPTILEと呼ばれ、完全にプロアクティブな方法で動作し、イベントに反応するためにDeep Reinforcement Learningベースのエージェントに依存する。本フレームワークでは、コンテキスト/環境に関するものと、物理的なアーキテクチャそのものに関するものとの2つのタイプのノベルティを考慮に入れている。このフレームワークは、その発生前にこれらの新規性を予測し、環境の時間変化モデルを抽出し、適切なマルコフ決定プロセスを使用してリアルタイム設定に対処する。
論文参考訳（メタデータ） (2022-03-28T12:38:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。