論文の概要: Offline Reinforcement Learning from Human Feedback in Real-World
Sequence-to-Sequence Tasks
- arxiv url: http://arxiv.org/abs/2011.02511v3
- Date: Wed, 9 Jun 2021 07:23:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 21:31:08.175902
- Title: Offline Reinforcement Learning from Human Feedback in Real-World
Sequence-to-Sequence Tasks
- Title(参考訳): 実世界のシーケンス対シーケンスタスクにおける人間のフィードバックからのオフライン強化学習
- Authors: Julia Kreutzer, Stefan Riezler, Carolin Lawrence
- Abstract要約: リアルタイムにデプロイされるNLPシステムから大量の対話ログを収集することができる。
このようなインタラクションログをオフラインの強化学習設定で使用することは、有望なアプローチである。
しかし、NLPタスクの性質と生産システムの制約により、一連の課題が発生する。
- 参考スコア(独自算出の注目度): 28.124323697456845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large volumes of interaction logs can be collected from NLP systems that are
deployed in the real world. How can this wealth of information be leveraged?
Using such interaction logs in an offline reinforcement learning (RL) setting
is a promising approach. However, due to the nature of NLP tasks and the
constraints of production systems, a series of challenges arise. We present a
concise overview of these challenges and discuss possible solutions.
- Abstract(参考訳): 現実世界にデプロイされたnlpシステムから大量のインタラクションログを収集することができる。
この豊富な情報をどうやって活用できるのか?
このような相互作用ログをオフライン強化学習(RL)設定で使用することは、有望なアプローチである。
しかし、NLPタスクの性質と生産システムの制約により、一連の課題が発生する。
我々は,これらの課題を簡潔に概観し,可能な解決策について議論する。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning [92.76959707441954]
我々はLLM推論性能を評価するための総合的な評価フレームワークであるZebraLogicを紹介した。
ZebraLogicは、制御可能で定量化可能な複雑さを持つパズルの生成を可能にする。
その結果,複雑性が増大するにつれて,精度が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-03T06:44:49Z) - Optimizing Job Allocation using Reinforcement Learning with Graph Neural Networks [0.0]
複雑なスケジューリング問題における効率的なジョブ割り当ては、現実世界のアプリケーションにおいて大きな課題をもたらす。
ジョブ割り当て問題(JAP)に取り組むために、強化学習(RL)とグラフニューラルネットワーク(GNN)の力を利用する新しいアプローチを提案する。
本手法は, グラフ構造化データを利用して, 環境との試行錯誤による適応ポリシーの学習を可能にする。
論文 参考訳(メタデータ) (2025-01-31T11:50:04Z) - Offline Reinforcement Learning for Learning to Dispatch for Job Shop Scheduling [0.9831489366502301]
ジョブショップスケジューリング問題(JSSP)は複雑な最適化問題である。
オンライン強化学習(RL)は、JSSPの許容可能なソリューションを素早く見つけることで、有望であることを示している。
オフライン強化学習による分散学習(Offline-LD)について紹介する。
論文 参考訳(メタデータ) (2024-09-16T15:18:10Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Reinforcement Learning Problem Solving with Large Language Models [0.0]
大規模言語モデル (LLM) には膨大な量の世界知識があり、自然言語処理 (NLP) タスクの性能向上のために様々な分野に応用できるようになっている。
これはまた、人間とAIシステム間の会話に基づく対話による、意図した問題を解決するための、よりアクセスしやすいパラダイムを促進する。
研究科学者」と「レガリー・マター・インテーク」の2つの詳細なケーススタディを通して、我々のアプローチの実践性を示す。
論文 参考訳(メタデータ) (2024-04-29T12:16:08Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。
状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-07-24T19:43:22Z) - Structure in Deep Reinforcement Learning: A Survey and Open Problems [22.77618616444693]
関数近似のためのディープニューラルネットワーク(DNN)の表現能力に支えられた強化学習(RL)は、多くのアプリケーションでかなりの成功を収めている。
しかし、様々な現実のシナリオに対処する実践性は、多様で予測不可能なダイナミクスによって特徴づけられるが、依然として限られている。
この制限は、データ効率の低下、一般化能力の制限、安全性保証の欠如、解釈可能性の欠如に起因している。
論文 参考訳(メタデータ) (2023-06-28T08:48:40Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Symbolic Relational Deep Reinforcement Learning based on Graph Neural
Networks and Autoregressive Policy Decomposition [0.0]
我々は、自然にオブジェクト、それらの関係、およびオブジェクト中心のアクションの観点で定義される関係問題における強化学習に焦点を当てる。
本稿では、グラフニューラルネットワークと自己回帰ポリシー分解に基づく深いRLフレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-25T22:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。