論文の概要: LAPP: Large Language Model Feedback for Preference-Driven Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.15472v1
- Date: Mon, 21 Apr 2025 22:46:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-01 01:08:33.770112
- Title: LAPP: Large Language Model Feedback for Preference-Driven Reinforcement Learning
- Title(参考訳): LAPP: 推論駆動強化学習のための大規模言語モデルフィードバック
- Authors: Pingcheng Jian, Xiao Wei, Yanbaihui Liu, Samuel A. Moore, Michael M. Zavlanos, Boyuan Chen,
- Abstract要約: LAPP(Large Language Model-Assisted Preference Prediction)は、ロボット学習のための新しいフレームワークである。
LAPPは、人間の最小限の努力で効率的、カスタマイズ可能、表現力のある行動獲得を可能にする。
LAPPは効率的な学習、高い最終性能、より高速な適応、高レベルの動作の正確な制御を実現する。
- 参考スコア(独自算出の注目度): 13.035613181550941
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce Large Language Model-Assisted Preference Prediction (LAPP), a novel framework for robot learning that enables efficient, customizable, and expressive behavior acquisition with minimum human effort. Unlike prior approaches that rely heavily on reward engineering, human demonstrations, motion capture, or expensive pairwise preference labels, LAPP leverages large language models (LLMs) to automatically generate preference labels from raw state-action trajectories collected during reinforcement learning (RL). These labels are used to train an online preference predictor, which in turn guides the policy optimization process toward satisfying high-level behavioral specifications provided by humans. Our key technical contribution is the integration of LLMs into the RL feedback loop through trajectory-level preference prediction, enabling robots to acquire complex skills including subtle control over gait patterns and rhythmic timing. We evaluate LAPP on a diverse set of quadruped locomotion and dexterous manipulation tasks and show that it achieves efficient learning, higher final performance, faster adaptation, and precise control of high-level behaviors. Notably, LAPP enables robots to master highly dynamic and expressive tasks such as quadruped backflips, which remain out of reach for standard LLM-generated or handcrafted rewards. Our results highlight LAPP as a promising direction for scalable preference-driven robot learning.
- Abstract(参考訳): ロボット学習のための新しいフレームワークであるLarge Language Model-Assisted Preference Prediction (LAPP)を導入する。
報酬工学、人間のデモンストレーション、モーションキャプチャー、高価なペアワイズ選好ラベルに大きく依存する従来のアプローチとは異なり、LAPPは大規模言語モデル(LLM)を活用して、強化学習(RL)中に収集された生の状態行動軌跡から選好ラベルを自動的に生成する。
これらのラベルは、オンラインの嗜好予測器を訓練するために使用され、それによって、人間が提供した高レベルの行動仕様を満たすためのポリシー最適化プロセスが導かれる。
我々の重要な技術的貢献は、軌道レベルの嗜好予測を通じてLLMをRLフィードバックループに統合することで、歩行パターンやリズムタイミングの微妙な制御を含む複雑なスキルをロボットが取得できるようにすることである。
LAPPは,4段階の動作と外乱操作を多種に分けて評価し,学習の効率化,最終性能の向上,適応の高速化,高レベルの動作の精密制御を実現していることを示す。
特に、LAPPは、標準的なLLM生成や手作りの報酬には届かない四足のバックフリップのような、非常にダイナミックで表現力のあるタスクをロボットにマスターすることを可能にする。
この結果から,LAPPはスケーラブルな嗜好駆動型ロボット学習の有望な方向性として注目された。
関連論文リスト
- Trajectory Adaptation using Large Language Models [0.8704964543257245]
新しい状況に応じた人間の指示に基づくロボット軌道の適応は、より直感的でスケーラブルな人間とロボットの相互作用を実現するために不可欠である。
本研究は,市販の移動プランナが生成する汎用ロボット軌道に適応する柔軟な言語ベースのフレームワークを提案する。
我々は、事前学習されたLLMを用いて、高密度ロボット操作のポリシーとしてコードを生成することにより、軌道方向の経路を適応させる。
論文 参考訳(メタデータ) (2025-04-17T08:48:23Z) - LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (2025-02-28T18:59:54Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - From Selection to Generation: A Survey of LLM-based Active Learning [153.8110509961261]
大きな言語モデル(LLM)は、全く新しいデータインスタンスを生成し、よりコスト効率の良いアノテーションを提供するために使われています。
本調査は,LSMに基づくAL手法の直感的な理解を目指して,研究者や実践者の最新のリソースとして機能することを目的としている。
論文 参考訳(メタデータ) (2025-02-17T12:58:17Z) - Efficiently Generating Expressive Quadruped Behaviors via Language-Guided Preference Learning [25.841585208296998]
表現力のあるロボット行動は、社会環境においてロボットが広く受け入れられるのに不可欠である。
現在の手法は、効率は良いが低解像度の自然言語入力に依存するか、人間の好みから学ぶかのいずれかであり、高解像度ではあるがサンプル非効率である。
本稿では、事前学習したLGPL(Language-Guided Preference Learning)の事前学習を活用する新しいアプローチを提案する。
提案手法はLGPL(Language-Guided Preference Learning)と呼ばれ,LLMを用いて初期行動サンプルを生成し,好みに基づくフィードバックによって洗練し,人間の期待と密接に一致した行動学習を行う。
論文 参考訳(メタデータ) (2025-02-06T02:07:18Z) - ICPL: Few-shot In-context Preference Learning via LLMs [15.84585737510038]
我々は,Large Language Models (LLM) が,サンプル効率のよい選好学習を実現するために,ネイティブな選好学習機能を備えていることを示す。
我々は,LLMの文脈内学習機能を用いて,人間のクエリ非効率を抑えるインコンテキスト優先学習(ICPL)を提案する。
論文 参考訳(メタデータ) (2024-10-22T17:53:34Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Accelerating Reinforcement Learning of Robotic Manipulations via
Feedback from Large Language Models [21.052532074815765]
本稿では,Lafite-RL (Language Agent feedback Interactive Reinforcement Learning) フレームワークを紹介する。
RLエージェントは、Large Language Modelsのタイムリーフィードバックを利用して、ロボットタスクを効率的に学習することができる。
学習効率と成功率の両方でベースラインを上回ります。
論文 参考訳(メタデータ) (2023-11-04T11:21:38Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Language to Rewards for Robotic Skill Synthesis [37.21434094015743]
我々は,大規模言語モデル(LLM)を利用して,様々なロボットタスクを最適化し,達成可能な報酬パラメータを定義する新しいパラダイムを提案する。
LLMが生成する中間インタフェースとして報酬を用いることで、ハイレベルな言語命令と修正のギャップを、低レベルなロボット動作に効果的に埋めることができる。
論文 参考訳(メタデータ) (2023-06-14T17:27:10Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。