論文の概要: Efficiently Generating Expressive Quadruped Behaviors via Language-Guided Preference Learning
- arxiv url: http://arxiv.org/abs/2502.03717v2
- Date: Mon, 31 Mar 2025 23:24:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-02 16:16:39.973923
- Title: Efficiently Generating Expressive Quadruped Behaviors via Language-Guided Preference Learning
- Title(参考訳): 言語指導型選好学習による表現的四分法行動の効率的な生成
- Authors: Jaden Clark, Joey Hejna, Dorsa Sadigh,
- Abstract要約: 表現力のあるロボット行動は、社会環境においてロボットが広く受け入れられるのに不可欠である。
現在の手法は、効率は良いが低解像度の自然言語入力に依存するか、人間の好みから学ぶかのいずれかであり、高解像度ではあるがサンプル非効率である。
本稿では、事前学習したLGPL(Language-Guided Preference Learning)の事前学習を活用する新しいアプローチを提案する。
提案手法はLGPL(Language-Guided Preference Learning)と呼ばれ,LLMを用いて初期行動サンプルを生成し,好みに基づくフィードバックによって洗練し,人間の期待と密接に一致した行動学習を行う。
- 参考スコア(独自算出の注目度): 25.841585208296998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Expressive robotic behavior is essential for the widespread acceptance of robots in social environments. Recent advancements in learned legged locomotion controllers have enabled more dynamic and versatile robot behaviors. However, determining the optimal behavior for interactions with different users across varied scenarios remains a challenge. Current methods either rely on natural language input, which is efficient but low-resolution, or learn from human preferences, which, although high-resolution, is sample inefficient. This paper introduces a novel approach that leverages priors generated by pre-trained LLMs alongside the precision of preference learning. Our method, termed Language-Guided Preference Learning (LGPL), uses LLMs to generate initial behavior samples, which are then refined through preference-based feedback to learn behaviors that closely align with human expectations. Our core insight is that LLMs can guide the sampling process for preference learning, leading to a substantial improvement in sample efficiency. We demonstrate that LGPL can quickly learn accurate and expressive behaviors with as few as four queries, outperforming both purely language-parameterized models and traditional preference learning approaches. Website with videos: https://lgpl-gaits.github.io/
- Abstract(参考訳): 表現力のあるロボット行動は、社会環境においてロボットが広く受け入れられるのに不可欠である。
学習した足の移動制御器の最近の進歩は、よりダイナミックで多用途なロボットの動作を可能にしている。
しかし、さまざまなシナリオで異なるユーザとの対話において最適な行動を決定することは、依然として課題である。
現在の手法は、効率は良いが低解像度の自然言語入力に依存するか、人間の好みから学ぶかのいずれかであり、高解像度ではあるがサンプル非効率である。
本稿では,事前学習による事前学習を優先学習の精度とともに活用する手法を提案する。
提案手法はLGPL(Language-Guided Preference Learning)と呼ばれ,LLMを用いて初期行動サンプルを生成し,好みに基づくフィードバックによって洗練し,人間の期待と密接に一致した行動学習を行う。
我々の中核的な洞察は、LLMが選好学習のためのサンプリングプロセスを導くことができ、サンプル効率が大幅に向上するということである。
我々はLGPLが4つのクエリで正確で表現力のある振る舞いを素早く学習できることを示し、純粋に言語パラメータ化されたモデルと従来の嗜好学習アプローチの両方に優れることを示した。
ビデオ付きウェブサイト:https://lgpl-gaits.github.io/
関連論文リスト
- LAPP: Large Language Model Feedback for Preference-Driven Reinforcement Learning [13.035613181550941]
LAPP(Large Language Model-Assisted Preference Prediction)は、ロボット学習のための新しいフレームワークである。
LAPPは、人間の最小限の努力で効率的、カスタマイズ可能、表現力のある行動獲得を可能にする。
LAPPは効率的な学習、高い最終性能、より高速な適応、高レベルの動作の正確な制御を実現する。
論文 参考訳(メタデータ) (2025-04-21T22:46:29Z) - MAPLE: A Framework for Active Preference Learning Guided by Large Language Models [9.37268652939886]
大規模言語モデルに基づくベイズ的能動的嗜好学習のためのフレームワークであるMAPLEを紹介する。
以上の結果から,MAPLEは学習過程を加速し,質問に答える能力を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-12-10T05:55:14Z) - Large Language Models are In-context Preference Learners [15.84585737510038]
我々は,Large Language Models (LLM) が,サンプル効率のよい選好学習を実現するために,ネイティブな選好学習機能を備えていることを示す。
我々は,LLMの文脈内学習機能を用いて,人間のクエリ非効率を抑えるインコンテキスト優先学習(ICPL)を提案する。
論文 参考訳(メタデータ) (2024-10-22T17:53:34Z) - Verbalized Machine Learning: Revisiting Machine Learning with Language Models [63.10391314749408]
言語化機械学習(VML)の枠組みを紹介する。
VMLはパラメータ空間を人間の解釈可能な自然言語に制限する。
我々は,VMLの有効性を実証的に検証し,VMLがより強力な解釈可能性を実現するためのステップストーンとして機能することを期待する。
論文 参考訳(メタデータ) (2024-06-06T17:59:56Z) - Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Active Preference Learning for Large Language Models [12.093302163058436]
我々は、好みラベルをよりよく活用するために、DPOのアクティブな学習戦略を開発する。
本稿では,言語モデルの予測エントロピーに基づく,プロンプト/コンプリートペアの実用的な獲得関数を提案する。
提案手法は,ペアの選好データに基づく微調整の学習率と最終性能の両方を改善する方法を示す。
論文 参考訳(メタデータ) (2024-02-12T23:09:00Z) - Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。
本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。
提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-12-01T00:54:02Z) - Aligning Language Models with Offline Learning from Human Feedback [5.539080592071948]
環境と対話することなく言語モデルを調整するために,人間のフィードバックフレームワークからオフラインで学習する手法を提案する。
具体的には、フィルタリングアライメント(FA)、報酬重み付けレグレッション(RWR)、条件付きアライメント(CA)について検討し、言語モデルを人間の好みに合わせる。
論文 参考訳(メタデータ) (2023-08-23T10:41:07Z) - Guiding Pretraining in Reinforcement Learning with Large Language Models [133.32146904055233]
テキストコーパスからの背景知識を用いて探索を図形化する手法について述べる。
このメソッドはELLMと呼ばれ、言語モデルによって提案される目標を達成するエージェントに報酬を与える。
大規模な言語モデルの事前訓練を活用することで、ELLMはエージェントをループに人間を必要とせず、人間に有意義で、もっとも有用な行動へと導く。
論文 参考訳(メタデータ) (2023-02-13T21:16:03Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less
Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。
実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。
我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文 参考訳(メタデータ) (2020-04-27T08:59:57Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。