Fugu-MT 論文翻訳(概要): Preference Transformer: Modeling Human Preferences using Transformers for RL

論文の概要: Preference Transformer: Modeling Human Preferences using Transformers for RL

arxiv url: http://arxiv.org/abs/2303.00957v1
Date: Thu, 2 Mar 2023 04:24:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-03 15:59:01.482264
Title: Preference Transformer: Modeling Human Preferences using Transformers for RL
Title（参考訳）: 選好トランスフォーマー:rl用トランスフォーマーを用いた人間選好のモデリング
Authors: Changyeon Kim, Jongjin Park, Jinwoo Shin, Honglak Lee, Pieter Abbeel, Kimin Lee
Abstract要約: Preference Transformerは、トランスフォーマーを使用して人間の好みをモデル化するニューラルネットワークである。そこで,Preference Transformerは,従来のアプローチでは動作しないが,実際の人間の好みを使って様々な制御タスクを解くことができることを示す。
参考スコア（独自算出の注目度）: 165.33887165572128
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Preference-based reinforcement learning (RL) provides a framework to train agents using human preferences between two behaviors. However, preference-based RL has been challenging to scale since it requires a large amount of human feedback to learn a reward function aligned with human intent. In this paper, we present Preference Transformer, a neural architecture that models human preferences using transformers. Unlike prior approaches assuming human judgment is based on the Markovian rewards which contribute to the decision equally, we introduce a new preference model based on the weighted sum of non-Markovian rewards. We then design the proposed preference model using a transformer architecture that stacks causal and bidirectional self-attention layers. We demonstrate that Preference Transformer can solve a variety of control tasks using real human preferences, while prior approaches fail to work. We also show that Preference Transformer can induce a well-specified reward and attend to critical events in the trajectory by automatically capturing the temporal dependencies in human decision-making. Code is available on the project website: https://sites.google.com/view/preference-transformer.
Abstract（参考訳）: 嗜好に基づく強化学習(RL)は,2つの行動間の人間の嗜好を用いてエージェントを訓練する枠組みを提供する。しかし, 嗜好に基づくRLは, 人間の意図に沿った報酬関数を学習するために, 大量のフィードバックを必要とするため, スケールが困難である。本稿では,トランスを用いた人間の嗜好をモデル化するニューラルネットワークであるPreference Transformerを提案する。決定に等しく寄与するマルコフ的報酬に基づく人間の判断を仮定した先行アプローチとは異なり,非マルコフ的報酬の重み付け和に基づく新しい選好モデルを導入する。次に,因果的および双方向的自己照応層を積み重ねるトランスアーキテクチャを用いて,提案する選好モデルを設計する。従来のアプローチでは動作しないが,人間の好みを用いて,様々な制御タスクを優先トランスフォーマーが解決できることを実証する。また,人間の意思決定における時間的依存性を自動的に捉えることにより,選好トランスフォーマーが適切な報酬を誘導し,軌道上の重要な事象に対処できることを示した。コードはプロジェクトのwebサイト(https://sites.google.com/view/preference-transformer.com)で入手できる。

関連論文リスト

FLoRA: Sample-Efficient Preference-based RL via Low-Rank Style Adaptation of Reward Functions [14.26977110112456]
嗜好に基づく強化学習は、事前学習されたロボット行動のスタイル適応に適したアプローチである。近年の適応的アプローチは、新たな嗜好に適合する報酬モデルがオーバーフィットする、破滅的な報酬の忘れ込み(CRF)に悩まされている。本手法は,シミュレーション・ベンチマーク・タスクと実世界の複数のロボット・タスクにまたがって,人間の嗜好にロボットの振る舞いを効率よく,効果的に調整できることを示す。
論文参考訳（メタデータ） (2025-04-14T09:04:14Z)
Real-Time Personalization with Simple Transformers [5.974778743092437]
単純な変換器は複雑なユーザの好みを捉えることができる。そこで我々は,単純な変換器に基づく推薦タスクを高速に最適化するアルゴリズムを開発した。本アルゴリズムは, 準線形時間における準最適性能を実現する。
論文参考訳（メタデータ） (2025-03-01T20:29:33Z)
Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文参考訳（メタデータ） (2024-10-24T20:04:15Z)
LRHP: Learning Representations for Human Preferences via Preference Pairs [45.056558199304554]
本研究では、よりリッチで構造化された人間の嗜好表現を構築することを目的とした嗜好表現学習タスクを提案する。選好データ選択と選好マージン予測という2つの下流タスクにおける選好表現の有用性を検証する。
論文参考訳（メタデータ） (2024-10-06T14:48:28Z)
Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment [51.14207112118503]
我々は、優先順位を効率的に捉えるために、応答を潜在空間に埋め込むアプローチである選好埋め込みを導入する。また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文参考訳（メタデータ） (2024-10-03T04:22:55Z)
AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable Diffusion Model [69.12623428463573]
AlignDiffは、人間の好みを定量化し、抽象性をカバーし、拡散計画をガイドする新しいフレームワークである。ユーザがカスタマイズした動作と正確に一致し、効率的に切り替えることができます。選好マッチング,スイッチング,カバーにおいて,他のベースラインに比べて優れた性能を示す。
論文参考訳（メタデータ） (2023-10-03T13:53:08Z)
Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文参考訳（メタデータ） (2023-05-26T00:43:02Z)
Models of human preference for learning reward functions [80.39289349661364]
そこで我々は,一対の軌跡区間間の人為的嗜好から報酬関数を学習する。この仮定に欠陥があることに気付き、各セグメントの後悔が示すように、人間の嗜好をモデル化することを提案する。提案した後悔の選好モデルは、実際の人間の選好をより良く予測し、また、これらの選好から報酬関数を学習し、より人道的な政策へと導く。
論文参考訳（メタデータ） (2022-06-05T17:58:02Z)
TransDreamer: Reinforcement Learning with Transformer World Models [33.34909288732319]
我々はTransDreamerと呼ばれるトランスフォーマーに基づくモデルベース強化学習エージェントを提案する。まず、トランスフォーマー状態空間モデルを紹介し、この世界モデルをトランスフォーマーベースのポリシーネットワークと共有し、トランスフォーマーベースのRLエージェントをトレーニングする安定性を得る。実験では,2次元の視覚的RLと3次元の視覚的RLタスクに対して,メモリベースの推論において,長期のメモリアクセスを必要とする2つの視覚的RLタスクに提案モデルを適用し,これらの複雑なタスクにおいて,提案モデルがドリーマーより優れていることを示す。
論文参考訳（メタデータ） (2022-02-19T00:30:52Z)
Decision Transformer: Reinforcement Learning via Sequence Modeling [102.86873656751489]
本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。本稿では,RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
論文参考訳（メタデータ） (2021-06-02T17:53:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。