論文の概要: VLP: Vision-Language Preference Learning for Embodied Manipulation
- arxiv url: http://arxiv.org/abs/2502.11918v1
- Date: Mon, 17 Feb 2025 15:32:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:08:32.853168
- Title: VLP: Vision-Language Preference Learning for Embodied Manipulation
- Title(参考訳): VLP: 身体操作のための視覚言語選好学習
- Authors: Runze Liu, Chenjia Bai, Jiafei Lyu, Shengjie Sun, Yali Du, Xiu Li,
- Abstract要約: 具体的操作タスクに対する好みフィードバックを提供するための視覚言語選好モデルを提案する。
選好モデルは言語に関連する特徴を抽出し、様々な下流タスクにおいて選好アノテータとして機能する。
提案手法は,未知のタスクや未知の言語命令に対して,精度の高い選好と一般化を提供し,ベースラインを大きなマージンで上回る。
- 参考スコア(独自算出の注目度): 29.7387976970634
- License:
- Abstract: Reward engineering is one of the key challenges in Reinforcement Learning (RL). Preference-based RL effectively addresses this issue by learning from human feedback. However, it is both time-consuming and expensive to collect human preference labels. In this paper, we propose a novel \textbf{V}ision-\textbf{L}anguage \textbf{P}reference learning framework, named \textbf{VLP}, which learns a vision-language preference model to provide preference feedback for embodied manipulation tasks. To achieve this, we define three types of language-conditioned preferences and construct a vision-language preference dataset, which contains versatile implicit preference orders without human annotations. The preference model learns to extract language-related features, and then serves as a preference annotator in various downstream tasks. The policy can be learned according to the annotated preferences via reward learning or direct policy optimization. Extensive empirical results on simulated embodied manipulation tasks demonstrate that our method provides accurate preferences and generalizes to unseen tasks and unseen language instructions, outperforming the baselines by a large margin.
- Abstract(参考訳): リワードエンジニアリングは強化学習(RL)における重要な課題の1つです。
優先度に基づくRLは、人間のフィードバックから学習することでこの問題に効果的に対処する。
しかし、人選好ラベルの収集には時間がかかり、費用もかかる。
本稿では,視覚言語による嗜好モデルを学習し,具体的操作タスクに対する嗜好フィードバックを提供する,新しい‘textbf{V}ision-\textbf{L}anguage \textbf{P}reference learning framework, \textbf{VLP} を提案する。
これを実現するために、3種類の言語条件付き嗜好を定義し、人間のアノテーションを使わずに多彩な暗黙的選好順序を含む視覚言語選好データセットを構築する。
選好モデルは言語に関連する特徴を抽出し、様々な下流タスクにおいて選好アノテータとして機能する。
このポリシーは、報酬学習や直接的な政策最適化を通じて、注釈付けされた好みに従って学習することができる。
シミュレーション操作タスクにおける実験結果から,提案手法が正確な選好を提供し,未知のタスクや未知の言語命令に一般化し,ベースラインを大きなマージンで上回ることを示す。
関連論文リスト
- MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。
LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。
提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T05:31:13Z) - Investigating on RLHF methodology [0.0]
本稿では,人間の嗜好をシミュレートする選好モデル(Preference Model)の訓練の特徴と,最良の結果を達成する上で不可欠な方法や詳細について論じる。
また、強化学習(Reinforcement Learning)を用いて大規模言語モデルを微調整し、直面した課題と克服方法を説明する。
論文 参考訳(メタデータ) (2024-10-02T17:46:22Z) - Multi-Type Preference Learning: Empowering Preference-Based Reinforcement Learning with Equal Preferences [12.775486996512434]
嗜好に基づく強化学習は、エージェント行動に関する人間教師の嗜好から直接学習する。
既存のPBRL法はしばしば明示的な選好から学習し、教師が平等な選好を選択する可能性を無視している。
そこで本稿では,PBRL手法であるMulti-Type Preference Learning (MTPL)を提案する。
論文 参考訳(メタデータ) (2024-09-11T13:43:49Z) - Language Representations Can be What Recommenders Need: Findings and Potentials [57.90679739598295]
先進的なLM表現から線形にマッピングされた項目表現は、より優れたレコメンデーション性能が得られることを示す。
この結果は、先進言語表現空間と効果的な項目表現空間との同型性を示唆している。
本研究は,自然言語処理とリコメンデーションシステムコミュニティの両方に刺激を与える言語モデリングと行動モデリングの関連性を強調した。
論文 参考訳(メタデータ) (2024-07-07T17:05:24Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - ULMA: Unified Language Model Alignment with Human Demonstration and
Point-wise Preference [16.73260713938154]
典型的なアライメント手順は、教師付き微調整と選好学習からなる。
本稿では,ポイントワイズフィードバックを効果的に活用する新しい選好学習手法であるPoint-wise Direct Preference Optimizationを紹介する。
我々の研究は、教師付き微調整とポイントワイド選好学習の新たなつながりを明らかにし、統一言語モデルアライメント(英語版)に到達した。
論文 参考訳(メタデータ) (2023-12-05T07:52:12Z) - Prefer to Classify: Improving Text Classifiers via Auxiliary Preference
Learning [76.43827771613127]
本稿では、このような補助データアノテーションの新しい代替手段として、入力テキストのペア間のタスク固有の嗜好について検討する。
本稿では、与えられた分類課題と補助的選好の両方を学ぶことの協調効果を享受できる、P2Cと呼ばれる新しいマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T04:04:47Z) - Offline RL for Natural Language Generation with Implicit Language Q
Learning [87.76695816348027]
ユーザ指定タスクの完了に関して、大きな言語モデルは矛盾する可能性がある。
本稿では,RLのフレキシブル・ユーティリティ・フレームワークと教師あり学習能力を組み合わせた新しいRL手法を提案する。
ILQLの実証的な検証に加えて、オフラインRLが自然言語生成設定で有用となるような、詳細な経験的分析状況も提示する。
論文 参考訳(メタデータ) (2022-06-05T18:38:42Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。