論文の概要: Mapping Language to Programs using Multiple Reward Components with
Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.00842v1
- Date: Sat, 2 Oct 2021 16:58:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 15:40:03.939637
- Title: Mapping Language to Programs using Multiple Reward Components with
Inverse Reinforcement Learning
- Title(参考訳): 逆強化学習を用いた複数逆成分を用いたプログラムへの言語マッピング
- Authors: Sayan Ghosh and Shashank Srivastava
- Abstract要約: 逆強化学習(Inverse Reinforcement Learning)として,言語からプログラムを生成する。
我々の手法による微調整は、強化学習(RL)を用いた競合手法よりもはるかに優れた性能を実現する。
生成プログラムは、RLに基づくアプローチよりも人間評価者によっても好まれており、関連性、完全性、人間に似ていると評価されている。
- 参考スコア(独自算出の注目度): 12.107259467873092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mapping natural language instructions to programs that computers can process
is a fundamental challenge. Existing approaches focus on likelihood-based
training or using reinforcement learning to fine-tune models based on a single
reward. In this paper, we pose program generation from language as Inverse
Reinforcement Learning. We introduce several interpretable reward components
and jointly learn (1) a reward function that linearly combines them, and (2) a
policy for program generation. Fine-tuning with our approach achieves
significantly better performance than competitive methods using Reinforcement
Learning (RL). On the VirtualHome framework, we get improvements of up to 9.0%
on the Longest Common Subsequence metric and 14.7% on recall-based metrics over
previous work on this framework (Puig et al., 2018). The approach is
data-efficient, showing larger gains in performance in the low-data regime.
Generated programs are also preferred by human evaluators over an RL-based
approach, and rated higher on relevance, completeness, and human-likeness.
- Abstract(参考訳): 自然言語命令をコンピュータが処理できるプログラムにマッピングすることは根本的な課題である。
既存のアプローチでは、可能性に基づくトレーニングや、強化学習を使用して、1つの報酬に基づいてモデルを微調整する。
本稿では,逆強化学習として言語からプログラムを生成する。
我々は,いくつかの解釈可能な報酬成分を導入し,(1)線形結合した報酬関数,(2)プログラム生成のためのポリシーを共同学習する。
提案手法による微調整は,強化学習(RL)を用いた競合手法よりもはるかに優れた性能を実現する。
virtualhomeフレームワークでは、最長の共通サブシーケンスメトリックで最大9.0%、このフレームワークでの以前の作業よりもリコールベースのメトリックで14.7%改善されています(puig et al., 2018)。
このアプローチはデータ効率が高く,低データレシエーションのパフォーマンス向上を示すものだ。
生成したプログラムは、rlベースのアプローチよりも人間の評価者によって好まれ、関連性、完全性、人間らしく評価されている。
関連論文リスト
- Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。
既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。
本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文 参考訳(メタデータ) (2024-05-23T14:53:54Z) - A Unified Linear Programming Framework for Offline Reward Learning from Human Demonstrations and Feedback [6.578074497549894]
Inverse Reinforcement Learning (IRL) と Reinforcement Learning from Human Feedback (RLHF) は報酬学習における重要な方法論である。
本稿では,オフライン報酬学習に適した新しい線形プログラミング(LP)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-20T23:59:26Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - ALaRM: Align Language Models via Hierarchical Rewards Modeling [41.79125107279527]
ALaRMは、人間からのフィードバックから強化学習において、階層的な報酬をモデル化する最初のフレームワークである。
このフレームワークは、全体的な報酬とアスペクト固有の報酬を統合することで、現在のアライメントアプローチの限界に対処する。
我々は、長文質問応答および機械翻訳タスクの応用を通して、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-03-11T14:28:40Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Aligning Language Models with Offline Learning from Human Feedback [5.539080592071948]
環境と対話することなく言語モデルを調整するために,人間のフィードバックフレームワークからオフラインで学習する手法を提案する。
具体的には、フィルタリングアライメント(FA)、報酬重み付けレグレッション(RWR)、条件付きアライメント(CA)について検討し、言語モデルを人間の好みに合わせる。
論文 参考訳(メタデータ) (2023-08-23T10:41:07Z) - The Wisdom of Hindsight Makes Language Models Better Instruction
Followers [84.9120606803906]
強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。
そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。
言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
論文 参考訳(メタデータ) (2023-02-10T12:16:38Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。