論文の概要: Efficiently Generating Expressive Quadruped Behaviors via Language-Guided Preference Learning
- arxiv url: http://arxiv.org/abs/2502.03717v1
- Date: Thu, 06 Feb 2025 02:07:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:31:45.875452
- Title: Efficiently Generating Expressive Quadruped Behaviors via Language-Guided Preference Learning
- Title(参考訳): 言語指導型選好学習による表現的四分法行動の効率的な生成
- Authors: Jaden Clark, Joey Hejna, Dorsa Sadigh,
- Abstract要約: 表現力のあるロボット行動は、社会環境においてロボットが広く受け入れられるのに不可欠である。
現在の手法は、効率は良いが低解像度の自然言語入力に依存するか、人間の好みから学ぶかのいずれかであり、高解像度ではあるがサンプル非効率である。
本稿では、事前学習したLGPL(Language-Guided Preference Learning)の事前学習を活用する新しいアプローチを提案する。
提案手法はLGPL(Language-Guided Preference Learning)と呼ばれ,LLMを用いて初期行動サンプルを生成し,好みに基づくフィードバックによって洗練し,人間の期待と密接に一致した行動学習を行う。
- 参考スコア(独自算出の注目度): 25.841585208296998
- License:
- Abstract: Expressive robotic behavior is essential for the widespread acceptance of robots in social environments. Recent advancements in learned legged locomotion controllers have enabled more dynamic and versatile robot behaviors. However, determining the optimal behavior for interactions with different users across varied scenarios remains a challenge. Current methods either rely on natural language input, which is efficient but low-resolution, or learn from human preferences, which, although high-resolution, is sample inefficient. This paper introduces a novel approach that leverages priors generated by pre-trained LLMs alongside the precision of preference learning. Our method, termed Language-Guided Preference Learning (LGPL), uses LLMs to generate initial behavior samples, which are then refined through preference-based feedback to learn behaviors that closely align with human expectations. Our core insight is that LLMs can guide the sampling process for preference learning, leading to a substantial improvement in sample efficiency. We demonstrate that LGPL can quickly learn accurate and expressive behaviors with as few as four queries, outperforming both purely language-parameterized models and traditional preference learning approaches. Website with videos: https://lgpl-gaits.github.io/
- Abstract(参考訳): 表現力のあるロボット行動は、社会環境においてロボットが広く受け入れられるのに不可欠である。
学習した足の移動制御器の最近の進歩は、よりダイナミックで多用途なロボットの動作を可能にしている。
しかし、さまざまなシナリオで異なるユーザとの対話において最適な行動を決定することは、依然として課題である。
現在の手法は、効率は良いが低解像度の自然言語入力に依存するか、人間の好みから学ぶかのいずれかであり、高解像度ではあるがサンプル非効率である。
本稿では,事前学習による事前学習を優先学習の精度とともに活用する手法を提案する。
提案手法はLGPL(Language-Guided Preference Learning)と呼ばれ,LLMを用いて初期行動サンプルを生成し,好みに基づくフィードバックによって洗練し,人間の期待と密接に一致した行動学習を行う。
我々の中核的な洞察は、LLMが選好学習のためのサンプリングプロセスを導くことができ、サンプル効率が大幅に向上するということである。
我々はLGPLが4つのクエリで正確で表現力のある振る舞いを素早く学習できることを示し、純粋に言語パラメータ化されたモデルと従来の嗜好学習アプローチの両方に優れることを示した。
ビデオ付きウェブサイト:https://lgpl-gaits.github.io/
関連論文リスト
- MAPLE: A Framework for Active Preference Learning Guided by Large Language Models [9.37268652939886]
大規模言語モデルに基づくベイズ的能動的嗜好学習のためのフレームワークであるMAPLEを紹介する。
以上の結果から,MAPLEは学習過程を加速し,質問に答える能力を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-12-10T05:55:14Z) - Large Language Models are In-context Preference Learners [15.84585737510038]
我々は,Large Language Models (LLM) が,サンプル効率のよい選好学習を実現するために,ネイティブな選好学習機能を備えていることを示す。
我々は,LLMの文脈内学習機能を用いて,人間のクエリ非効率を抑えるインコンテキスト優先学習(ICPL)を提案する。
論文 参考訳(メタデータ) (2024-10-22T17:53:34Z) - MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。
LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。
提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T05:31:13Z) - Verbalized Machine Learning: Revisiting Machine Learning with Language Models [63.10391314749408]
言語化機械学習(VML)の枠組みを紹介する。
VMLはパラメータ空間を人間の解釈可能な自然言語に制限する。
我々は,VMLの有効性を実証的に検証し,VMLがより強力な解釈可能性を実現するためのステップストーンとして機能することを期待する。
論文 参考訳(メタデータ) (2024-06-06T17:59:56Z) - Batch Active Learning of Reward Functions from Human Preferences [33.39413552270375]
嗜好に基づく学習は、ユーザが好みの質問をすることで、信頼できるラベル付けを可能にする。
アクティブクエリ手法は、より情報性の高いデータを生成するために、好みに基づく学習で一般的に使用される。
我々は,データサンプルを極力少なくして,報酬関数の効率的な学習を可能にする,新しいアルゴリズムのセットを開発した。
論文 参考訳(メタデータ) (2024-02-24T08:07:48Z) - Active Preference Learning for Large Language Models [12.093302163058436]
我々は、好みラベルをよりよく活用するために、DPOのアクティブな学習戦略を開発する。
本稿では,言語モデルの予測エントロピーに基づく,プロンプト/コンプリートペアの実用的な獲得関数を提案する。
提案手法は,ペアの選好データに基づく微調整の学習率と最終性能の両方を改善する方法を示す。
論文 参考訳(メタデータ) (2024-02-12T23:09:00Z) - Aligning Language Models with Offline Learning from Human Feedback [5.539080592071948]
環境と対話することなく言語モデルを調整するために,人間のフィードバックフレームワークからオフラインで学習する手法を提案する。
具体的には、フィルタリングアライメント(FA)、報酬重み付けレグレッション(RWR)、条件付きアライメント(CA)について検討し、言語モデルを人間の好みに合わせる。
論文 参考訳(メタデータ) (2023-08-23T10:41:07Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less
Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。
実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。
我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文 参考訳(メタデータ) (2020-04-27T08:59:57Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。