論文の概要: Offline Reinforcement Learning for Human-Guided Human-Machine
Interaction with Private Information
- arxiv url: http://arxiv.org/abs/2212.12167v1
- Date: Fri, 23 Dec 2022 06:26:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 16:37:41.648123
- Title: Offline Reinforcement Learning for Human-Guided Human-Machine
Interaction with Private Information
- Title(参考訳): 個人情報を用いた人-機械インタラクションのためのオフライン強化学習
- Authors: Zuyue Fu, Zhengling Qi, Zhuoran Yang, Zhaoran Wang, Lan Wang
- Abstract要約: 個人情報を含む人間と機械の相互作用について検討する。
本ゲームでは,オフライン強化学習(RL)に注目した。
そこで我々は,新たな識別結果を開発し,それを用いて新たな非政治評価手法を提案する。
- 参考スコア(独自算出の注目度): 110.42866062614912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the human-machine interaction such as training chatbots for
improving customer satisfaction, we study human-guided human-machine
interaction involving private information. We model this interaction as a
two-player turn-based game, where one player (Alice, a human) guides the other
player (Bob, a machine) towards a common goal. Specifically, we focus on
offline reinforcement learning (RL) in this game, where the goal is to find a
policy pair for Alice and Bob that maximizes their expected total rewards based
on an offline dataset collected a priori. The offline setting presents two
challenges: (i) We cannot collect Bob's private information, leading to a
confounding bias when using standard RL methods, and (ii) a distributional
mismatch between the behavior policy used to collect data and the desired
policy we aim to learn. To tackle the confounding bias, we treat Bob's previous
action as an instrumental variable for Alice's current decision making so as to
adjust for the unmeasured confounding. We develop a novel identification result
and use it to propose a new off-policy evaluation (OPE) method for evaluating
policy pairs in this two-player turn-based game. To tackle the distributional
mismatch, we leverage the idea of pessimism and use our OPE method to develop
an off-policy learning algorithm for finding a desirable policy pair for both
Alice and Bob. Finally, we prove that under mild assumptions such as partial
coverage of the offline data, the policy pair obtained through our method
converges to the optimal one at a satisfactory rate.
- Abstract(参考訳): 顧客満足度を高めるためにチャットボットを訓練するなど、人間と機械の相互作用に動機づけられ、個人情報を含む人間と機械の相互作用を研究した。
我々は,このインタラクションを,一方のプレイヤー(アリス,人間)が他方のプレイヤー(ボブ,機械)を共通の目標に向かって誘導する2人プレイのターンベースゲームとしてモデル化する。
具体的には、このゲームでオフライン強化学習(rl)にフォーカスし、aliceとbobのポリシーペアを見つけ、事前に収集したオフラインデータセットに基づいて、期待される総報酬を最大化する。
オフライン設定には2つの課題がある。
(i)Bobの個人情報は収集できないため、標準のRLメソッドを使用する場合、バイアスが発生する。
(二)データ収集に使用する行動方針と我々が学習しようとする望ましい方針との分布的ミスマッチ。
共起バイアスに対処するため、Alice の現在の判断のための器用変数として、Bob の以前の動作を扱い、未測定共起の調整を行う。
そこで我々は,この2人のターンベースゲームにおいて,ポリシーペアを評価するための新たなオフ政治評価手法(OPE)を提案する。
分布的ミスマッチに取り組むために,我々は悲観主義の考え方を活用し,我々のope法を用いて,aliceとbobの双方にとって望ましいポリシーペアを見つけるためのオフポリシー学習アルゴリズムを開発した。
最後に,オフラインデータの部分的カバレッジのような穏やかな仮定の下では,本手法で得られたポリシーペアが満足のいく速度で最適なものへと収束することを示す。
関連論文リスト
- Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - Reinforcement Learning with Human Feedback: Learning Dynamic Choices via
Pessimism [91.52263068880484]
人間のフィードバックを用いたオフライン強化学習(RLHF)について検討する。
我々は、人間の選択によって引き起こされる一連の軌道から、人間の根底にある報酬とMDPの最適政策を学習することを目指している。
RLHFは、大きな状態空間だが人間のフィードバックが限られていること、人間の決定の有界な合理性、政治外の分散シフトなど、さまざまな理由から挑戦されている。
論文 参考訳(メタデータ) (2023-05-29T01:18:39Z) - Beyond Reward: Offline Preference-guided Policy Optimization [18.49648170835782]
オフライン優先型強化学習(英語: offline preference-based reinforcement learning, PbRL)は、従来の強化学習の変種であり、オンラインインタラクションを必要としない。
本研究は、オフライン優先誘導政策最適化(OPPO)の話題に焦点を当てる。
OPPOは1ステップのプロセスでオフラインの軌跡と好みをモデル化し、報酬関数を別々に学習する必要がない。
論文 参考訳(メタデータ) (2023-05-25T16:24:11Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Offline Preference-Based Apprenticeship Learning [11.21888613165599]
我々は、オフラインデータセットを使用して、自律システムが人間から学び、適応し、協力しようとするときに直面する2つの課題に対処する方法について研究する。
まず、オフラインデータセットを使用して、プールベースのアクティブな嗜好学習を通じて、人間の報酬関数を効率的に推測する。
第2に、この学習報酬関数から、推定された人間の意図に基づいてポリシーを最適化するオフライン強化学習を行う。
論文 参考訳(メタデータ) (2021-07-20T04:15:52Z) - Offline Reinforcement Learning as Anti-Exploration [49.72457136766916]
我々は、新たなオフラインRLエージェントを設計するためのボーナスベースの探索に関する文献から着想を得た。
中心となるアイデアは、探索のために追加するのではなく、報酬から予測ベースの探査ボーナスを減じることだ。
我々のエージェントは、連続的な制御ロコモーションと操作タスクのセットにおいて、最先端技術と競合していることを示す。
論文 参考訳(メタデータ) (2021-06-11T14:41:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。