論文の概要: Learning Interpretable Models of Aircraft Handling Behaviour by
Reinforcement Learning from Human Feedback
- arxiv url: http://arxiv.org/abs/2305.16924v1
- Date: Fri, 26 May 2023 13:37:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 14:44:19.635303
- Title: Learning Interpretable Models of Aircraft Handling Behaviour by
Reinforcement Learning from Human Feedback
- Title(参考訳): 人間フィードバックからの強化学習による航空機操縦行動の理解モデル
- Authors: Tom Bewley, Jonathan Lawry, Arthur Richards
- Abstract要約: 我々は、模擬飛行軌道に対するペアワイズ選好を用いて、報酬木と呼ばれる解釈可能なルールベースモデルを学習する。
我々はRLエージェントを訓練し、報奨木を目的とする高品質なハンドリング行動を実行する。
- 参考スコア(独自算出の注目度): 12.858982225307809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a method to capture the handling abilities of fast jet pilots in a
software model via reinforcement learning (RL) from human preference feedback.
We use pairwise preferences over simulated flight trajectories to learn an
interpretable rule-based model called a reward tree, which enables the
automated scoring of trajectories alongside an explanatory rationale. We train
an RL agent to execute high-quality handling behaviour by using the reward tree
as the objective, and thereby generate data for iterative preference collection
and further refinement of both tree and agent. Experiments with synthetic
preferences show reward trees to be competitive with uninterpretable neural
network reward models on quantitative and qualitative evaluations.
- Abstract(参考訳): 本稿では,人間の嗜好フィードバックから強化学習(rl)によるソフトウェアモデルにおける高速ジェットパイロットのハンドリング能力の把握手法を提案する。
我々は、模擬飛行軌跡に対するペアワイズ選好を用いて、報酬木と呼ばれる解釈可能なルールベースモデルを学習し、説明的根拠とともに軌道の自動スコアリングを可能にする。
我々は,報酬ツリーを目的とし,高品質な処理を行うためにrlエージェントを訓練し,反復的選好収集のためのデータを生成し,さらにツリーとエージェントの両方を改良する。
合成選好の実験は、定量的および定性的な評価において、解釈不能なニューラルネットワーク報酬モデルと競合する報酬木を示す。
関連論文リスト
- Weak Reward Model Transforms Generative Models into Robust Causal Event Extraction Systems [17.10762463903638]
我々は人的評価を近似するために評価モデルを訓練し、高い合意を得る。
そこで本研究では,アノテートデータの一部を用いて評価モデルを訓練する弱強監督手法を提案する。
論文 参考訳(メタデータ) (2024-06-26T10:48:14Z) - Jointly Training and Pruning CNNs via Learnable Agent Guidance and Alignment [69.33930972652594]
本稿では,CNNモデルの重みと構造的プーン構造を協調的に学習するための新しい構造的プルーニング手法を提案する。
本手法の中核となる要素は強化学習(RL)エージェントであり,その動作がCNNモデルの階層のプルーニング比を決定する。
我々は,モデルの重みとエージェントのポリシーを反復的に訓練し,共同訓練と刈り取りを行う。
論文 参考訳(メタデータ) (2024-03-28T15:22:29Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Iterative Data Smoothing: Mitigating Reward Overfitting and
Overoptimization in RLHF [79.98542868281471]
強化学習(Reinforcement Learning from Human Feedback, RLHF)は、言語モデルを人間中心の値と密接に整合させる手法である。
学習した報奨モデルに対して過度に最適化すると、最終的には真の目的が損なわれることが観察された。
本稿では、これらの問題を考察し、「Iterative Data Smoothing」(IDS)と呼ばれる改良された報酬学習アルゴリズムの設計に理論的知見を活用する。
論文 参考訳(メタデータ) (2024-01-29T17:43:42Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Training a Helpful and Harmless Assistant with Reinforcement Learning
from Human Feedback [8.409764908043396]
人からのフィードバックからの好みのモデリングと強化学習を微調整言語モデルに適用し、補助的アシスタントとして機能させる。
このアライメントトレーニングにより,ほぼすべてのNLP評価の性能が向上することがわかった。
オンライントレーニングの反復的なモードについて検討し、人間のフィードバックデータを用いて毎週のケイデンスで好みモデルとRLポリシーを更新する。
論文 参考訳(メタデータ) (2022-04-12T15:02:38Z) - Learning Reward Models for Cooperative Trajectory Planning with Inverse
Reinforcement Learning and Monte Carlo Tree Search [2.658812114255374]
この研究は、特徴に基づくエントロピー逆強化学習(Entropy Inverse Reinforcement Learning)を用いて、記録された専門家軌道の確率を最大化する報酬モデルを学ぶ。
評価の結果,提案手法は専門家を模倣し,手動で調整したベースライン報酬モデルと類似した,合理的な報酬モデルを取り戻すことができることが示された。
論文 参考訳(メタデータ) (2022-02-14T00:33:08Z) - Interpretable Preference-based Reinforcement Learning with
Tree-Structured Reward Functions [2.741266294612776]
本稿では,木の構造を内在的に解釈して報酬関数を構成するオンライン能動的選好学習アルゴリズムを提案する。
いくつかの環境において,木構造報酬関数のサンプル効率学習を実演し,改良された解釈可能性を活用して,アライメントの探索とデバッグを行う。
論文 参考訳(メタデータ) (2021-12-20T09:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。