論文の概要: Efficiently Aligning Language Models with Online Natural Language Feedback
- arxiv url: http://arxiv.org/abs/2605.04356v1
- Date: Tue, 05 May 2026 23:25:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.577542
- Title: Efficiently Aligning Language Models with Online Natural Language Feedback
- Title(参考訳): オンライン自然言語フィードバックを用いた効率的な言語モデル作成
- Authors: Christine Ye, Joe Benton,
- Abstract要約: ファジィ領域の言語モデルをオンライン自然言語フィードバックを用いて整列させる手法を開発した。
In-context Learning (ICL) と fine-tuning を用いて,言語モデルから代用報酬モデルを構築する。
この結果から,オンライン自然言語フィードバックは専門家の指導によるデータ効率を大幅に向上させる可能性が示唆された。
- 参考スコア(独自算出の注目度): 2.821655149272041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards has been used to elicit impressive performance from language models in many domains. But, broadly beneficial deployments of AI may require us to train models with strong capabilities in "fuzzy", hard-to-supervise domains. In this paper, we develop methods to align language models in fuzzy domains where human experts are still able to provide high-quality supervision signal, but only for a small number of model outputs, using online natural language feedback. Specifically, we train models by iteratively optimizing against proxy reward signals, stopping at the point of over-optimization, collecting fresh expert supervision, and updating the proxy reward. We construct proxy reward models from language models using in-context learning (ICL) and fine-tuning. We test our methods by eliciting creative writing and alignment research capabilities in Qwen3-8B and Haiku 4.5 respectively. For Qwen3-8B, ICL methods recover up to 35% of performance with 50x fewer expert samples, while fine-tuning methods recover 80% with up to 20x fewer samples and 100% with 3x fewer samples. For Haiku 4.5, ICL methods recover up to 35% of performance with 30x fewer samples, and fine-tuning methods recover 100% with 10x fewer samples. Our results suggest that online natural language feedback can substantially improve the data efficiency of expert supervision.
- Abstract(参考訳): 検証可能な報酬を伴う強化学習は、多くのドメインの言語モデルから印象的なパフォーマンスを引き出すために使われてきた。
しかし、広く有用なAIのデプロイメントでは、"ファジィで監視の難しい"ドメインで強力な能力を持つモデルをトレーニングする必要があります。
本稿では,人間の専門家が高品質な監視信号を提供することができるファジィ領域における言語モデルの整合性を,オンラインの自然言語フィードバックを用いて,少数のモデル出力に限定して開発する。
具体的には、プロキシ報酬信号に対して反復的に最適化し、過度な最適化の時点で停止し、新たな専門家の監督を集め、プロキシ報酬を更新することでモデルをトレーニングする。
In-context Learning (ICL) と fine-tuning を用いて,言語モデルから代用報酬モデルを構築する。
我々は, Qwen3-8B と Haiku 4.5 において, 創造的執筆能力とアライメント研究能力を付与し, 提案手法を検証した。
Qwen3-8Bでは、ICL法は50倍の専門サンプルで最大35%の性能を回復し、微調整法は最大で最大で20倍のサンプルで80%を回復し、3倍のサンプルで100%を回復した。
Haiku 4.5の場合、ICL法は30倍のサンプルで最大35%の性能を回復し、微調整法は10倍のサンプルで100%回復した。
この結果から,オンライン自然言語フィードバックは専門家の指導によるデータ効率を大幅に向上させる可能性が示唆された。
関連論文リスト
- Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain [0.0]
本稿では,トルコの法律ドメインのための専門言語モデルを開発するためのフレームワークであるMecellemモデルを提案する。
Scratchから事前訓練されたエンコーダモデル:ModernBERTベースの双方向エンコーダをトルコ支配の112億トークンのコーパスで事前訓練し、(2)継続事前トレーニング(CPT)によるデコーダモデル:Qwen3-1.7BとQwen3-4Bをトルコの法域に適応させた。
論文 参考訳(メタデータ) (2026-01-22T14:41:32Z) - Domain-Adaptive Continued Pre-Training of Small Language Models [0.0]
小型言語モデルの事前学習は、限られた計算資源によるドメイン適応に有望な道を提供する。
私は、このアプローチを教育領域内で調査し、スクラッチからトレーニングモデルのリソース効率の良い代替品として評価しました。
私のアプローチには、包括的なデータ前処理、メモリ最適化トレーニング設定、ベンチマークベースの評価が含まれています。
論文 参考訳(メタデータ) (2025-04-13T18:40:32Z) - Clear Preferences Leave Traces: Reference Model-Guided Sampling for Preference Learning [59.11519451499754]
直接選好最適化(DPO)は、言語モデルと人間の選好を整合させるデファクトアプローチとして登場した。
最近の研究によると、DPOの有効性はデータ品質のトレーニングに依存している。
基準モデル確率空間は,高品質なトレーニングサンプルを自然に検出する。
論文 参考訳(メタデータ) (2025-01-25T07:21:50Z) - Re-ReST: Reflection-Reinforced Self-Training for Language Agents [101.22559705696885]
言語エージェントにおける自己学習は、エージェント自体から監督を生成することができる。
リフレクション強化自己学習(Reflection-Reinforced Self-Training, Re-ReST)は, テキストレフレクタを用いて低品質な試料を精製する。
論文 参考訳(メタデータ) (2024-06-03T16:21:38Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。