論文の概要: Offline RL by Reward-Weighted Fine-Tuning for Conversation Optimization
- arxiv url: http://arxiv.org/abs/2506.06964v2
- Date: Mon, 27 Oct 2025 18:56:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:35.9921
- Title: Offline RL by Reward-Weighted Fine-Tuning for Conversation Optimization
- Title(参考訳): Reward-Weighted Fine-Tuningによる会話最適化のためのオフラインRL
- Authors: Subhojyoti Mukherjee, Viet Dac Lai, Raghavendra Addanki, Ryan Rossi, Seunghyun Yoon, Trung Bui, Anup Rao, Jayakumar Subramanian, Branislav Kveton,
- Abstract要約: 大規模言語モデル(LLM)を用いたオフラインRLの実践的アプローチを提案する。
我々は、この問題を報酬重み付けファインチューニングとして再考し、教師付きファインチューニング(SFT)と同様の手法を用いて解決することができる。
- 参考スコア(独自算出の注目度): 44.3655156382259
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) is a variant of RL where the policy is learned from a previously collected dataset of trajectories and rewards. In our work, we propose a practical approach to offline RL with large language models (LLMs). We recast the problem as reward-weighted fine-tuning, which can be solved using similar techniques to supervised fine-tuning (SFT). To showcase the value of our approach, we apply it to learning short-horizon question-answering policies of a fixed length, where the agent reasons about potential answers or asks clarifying questions. Our work stands in a stark contrast to state-of-the-art methods in this domain, based on SFT and direct preference optimization, which have additional hyper-parameters and do not directly optimize for rewards. We compare to them empirically, and report major gains in both optimized rewards and language quality.
- Abstract(参考訳): オフライン強化学習(英: Offline reinforcement learning、RL)はRLの変種であり、以前に収集された軌道と報酬のデータセットからポリシーが学習される。
本研究では,大規模言語モデル(LLM)を用いたオフラインRLの実践的アプローチを提案する。
我々は、この問題を報酬重み付けファインチューニングとして再考し、教師付きファインチューニング(SFT)と同様の手法を用いて解決することができる。
提案手法の価値を明らかにするために, エージェントが潜在的な回答を理由づけたり, 質問を明確にしたりする, 一定の長さの短水平質問応答ポリシーを学習するために, 提案手法を適用した。
我々の研究は、SFTと直接選好最適化に基づいて、この領域における最先端の手法とは対照的であり、追加のハイパーパラメータを持ち、報酬を直接最適化しない。
私たちはそれらを経験的に比較し、最適化された報酬と言語品質の両方において大きな利益を報告します。
関連論文リスト
- Offline Safe Policy Optimization From Heterogeneous Feedback [35.454656807434006]
報酬の観点からエージェントの行動に関する一対の嗜好に基づいてポリシーを学習するフレームワークと、軌道セグメントの安全性を示すバイナリラベルを導入する。
提案手法は,高い報酬で安全な政策を学習し,最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2025-12-23T09:07:53Z) - Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - Prompting Large Language Models with Rationale Heuristics for Knowledge-based Visual Question Answering [6.745948705869626]
我々は,先行手法がLarge Language Models (LLM) の容量を十分に活性化していないことを論じる。
本稿では,知識に基づく VQA のための LLM と Rationale Heuristics を併用した PLRH というフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-22T09:14:35Z) - Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - Putting People in LLMs' Shoes: Generating Better Answers via Question Rewriter [17.736962215696366]
本稿では,単一ラウンドのインスタンスレベルのプロンプト最適化について述べる。
ブラックボックスLSMに対する人間の質問の信頼性を高めることにより、質問書き直しは生成した回答の品質を向上させる。
複数のブラックボックスLSMと長文質問応答データセットを用いた実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-20T06:24:47Z) - Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF [80.32171988565999]
オンラインとオフラインのRLHFに統一的なアプローチを導入します。
VPOは、報酬関数の最大値推定を対応する値関数で正規化する。
テキスト要約とダイアログの実験は、VPOの実用性と有効性を検証する。
論文 参考訳(メタデータ) (2024-05-29T17:51:42Z) - Reinforcement Replaces Supervision: Query focused Summarization using
Deep Reinforcement Learning [43.123290672073814]
クエリに基づいて文書から要約を生成するシステムを扱う。
Reinforcement Learning (RL) が自然言語生成のための Supervised Learning (SL) の一般化を提供するという知見に触発されて,本課題に RL ベースのアプローチを用いる。
我々は、ROUGE、BLEU、Semantic similarityといった様々な報酬信号に基づいて訓練された複数のポリシーグラディエントネットワークを開発する。
論文 参考訳(メタデータ) (2023-11-29T10:38:16Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - Beyond Reward: Offline Preference-guided Policy Optimization [18.49648170835782]
オフライン優先型強化学習(英語: offline preference-based reinforcement learning, PbRL)は、従来の強化学習の変種であり、オンラインインタラクションを必要としない。
本研究は、オフライン優先誘導政策最適化(OPPO)の話題に焦点を当てる。
OPPOは1ステップのプロセスでオフラインの軌跡と好みをモデル化し、報酬関数を別々に学習する必要がない。
論文 参考訳(メタデータ) (2023-05-25T16:24:11Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - EAGER: Asking and Answering Questions for Automatic Reward Shaping in
Language-guided RL [32.40102627844589]
強化学習(Reinforcement Learning, RL)は、長い地平線とまばらな報酬タスクであり、多くのトレーニングステップを必要とすることで知られている。
本稿では,エージェントが汎用言語目標から補助目的を抽出する自動報酬形成手法を提案する。
論文 参考訳(メタデータ) (2022-06-20T09:29:13Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。