論文の概要: A Unified Understanding of Offline Data Selection and Online Self-refining Generation for Post-training LLMs
- arxiv url: http://arxiv.org/abs/2511.21056v1
- Date: Wed, 26 Nov 2025 04:48:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.97073
- Title: A Unified Understanding of Offline Data Selection and Online Self-refining Generation for Post-training LLMs
- Title(参考訳): 学習後LLMにおけるオフラインデータ選択とオンライン自己精錬生成の統一的理解
- Authors: Quan Xiao, Tianyi Chen,
- Abstract要約: 最適化の観点から、オフラインデータ選択とオンラインセルフリファインディング世代に取り組みます。
両レベルデータ選択フレームワークの有効性を理論的に初めて実証した。
- 参考スコア(独自算出の注目度): 55.931369468485464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline data selection and online self-refining generation, which enhance the data quality, are crucial steps in adapting large language models (LLMs) to specific downstream tasks. We tackle offline data selection and online self-refining generations through an optimization perspective. Specifically, bilevel data selection is used for offline data selection with respect to the validation dataset, and we treat online self-refining generation as a model adaptation step of selecting the model trained on current responses that best fits the validation data. Our framework offers a unified understanding of offline data selection and self-refining generation by assigning a learned data weight to each question and response, either explicitly or implicitly. For the first time, we theoretically demonstrate the effectiveness of the bilevel data selection framework and demonstrate its performance gains over unfiltered direct mixing baselines. By combining offline data with validation-weighted online generations, our method enhances fine-tuning performance. Experiments on quality enhancement and safety-aware LLM fine-tuning validate its effectiveness.
- Abstract(参考訳): データ品質を向上させるオフラインデータ選択とオンライン自己精製生成は、特定の下流タスクに大規模言語モデル(LLM)を適用する上で重要なステップである。
最適化の観点から、オフラインデータ選択とオンラインセルフリファインディング世代に取り組みます。
具体的には、バリデーションデータセットに関するオフラインデータ選択にバイレベルデータ選択を使用し、バリデーションデータに最も適した現在の応答に基づいてトレーニングされたモデルを選択するためのモデル適応ステップとして、オンライン自己精製生成を扱う。
我々のフレームワークは,学習したデータの重み付けを各質問や応答に明示的にあるいは暗黙的に割り当てることで,オフラインデータ選択と自己修正生成の統一的な理解を提供する。
両レベルデータ選択フレームワークの有効性を理論的に初めて実証し、フィルタされていない直接混合ベースラインよりも高い性能を示す。
オフラインデータとバリデーション重み付けされたオンライン世代を組み合わせることで、微調整性能を向上させる。
品質向上と安全性に配慮したLDM微調整実験は,その有効性を検証した。
関連論文リスト
- Towards Understanding Valuable Preference Data for Large Language Model Alignment [85.38864561060088]
大規模言語モデル(LLM)のアライメントは通常、人間の好みの比較から学習することで達成される。
新たに提案したTruncated Influence Function (TIF) を用いた検証データに対する個人の影響によるデータ品質の評価を行う。
この目的のために、我々はそれらを組み合わせ、様々なエラーソースをオフセットし、単純だが効果的なデータ選択ルールをもたらす。
論文 参考訳(メタデータ) (2025-10-15T06:57:55Z) - Offline-to-Online Reinforcement Learning with Classifier-Free Diffusion Generation [22.13678670717358]
Offline-to-online Reinforcement Learning (O2O RL)は、オフラインでトレーニング済みのポリシーをオンラインで微調整することで、コストのかかるオンラインインタラクションを最小化することを目的としている。
既存の作業では、オフラインデータセットを使用して、データ拡張のためのオンラインデータ配布に準拠したデータを生成する。
拡散自由生成(CFDG)という新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2025-08-09T03:32:23Z) - ActiveDPO: Active Direct Preference Optimization for Sample-Efficient Alignment [94.36403843133616]
人間の好みを使って大きな言語モデル(LLM)を整列させると、さまざまな下流タスクのパフォーマンスが大幅に向上する。
既存の方法には強い理論的な基礎が欠けているか、制限的な報酬関数の仮定に依存している。
非線型報酬関数に対して理論的に基底化されたデータ選択基準を用いるアルゴリズムであるActiveDPOを提案する。
論文 参考訳(メタデータ) (2025-05-25T17:42:52Z) - Offline Clustering of Linear Bandits: The Power of Clusters under Limited Data [60.91600085523719]
我々は、オフラインデータセットを用いてクラスタ特性を学習し、意思決定を改善する方法を研究する、帯域幅(Off-ClusBand)問題のオフラインクラスタリングについて検討する。
提案するアルゴリズムは2つある: Off-C2LUB は、限られたオフラインユーザデータの下で既存の手法を解析的かつ実験的に上回る性能を示し、Off-CLUB は、データがスパースであるときにバイアスが発生するが、データが十分であれば、その下限にほぼ一致する。
論文 参考訳(メタデータ) (2025-05-25T08:43:40Z) - Goal-Conditioned Data Augmentation for Offline Reinforcement Learning [9.181158786602085]
Goal-cOnditioned Data Augmentation (GODA) は、ゴール条件付き拡散法である。
GODAは、元のオフラインデータセットの包括的な分布表現を学習し、選択的に高いリターン目標を持つ新しいデータを生成する。
我々は,D4RLベンチマークと実世界の課題,特に交通信号制御(TSC)タスクについて実験を行い,GODAの有効性を実証する。
論文 参考訳(メタデータ) (2024-12-29T16:42:30Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Online Self-Preferring Language Models [34.22412851864247]
オンライン自己選好(OSP)言語モデルは、自己生成の応答ペアと自己判断の選好強度から学習する。
OSPは、広く使われている2つの人間の嗜好データセットにおいて、さまざまなメトリクスをまたいだ最先端のアライメント性能を達成する。
論文 参考訳(メタデータ) (2024-05-23T02:13:34Z) - Adaptive Policy Learning for Offline-to-Online Reinforcement Learning [27.80266207283246]
我々は、エージェントがオフラインデータセットから最初に学習され、オンラインにトレーニングされたオフライン-オンライン設定について検討する。
オフラインおよびオンラインデータを効果的に活用するためのAdaptive Policy Learningというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T08:13:21Z) - AliExpress Learning-To-Rank: Maximizing Online Model Performance without
Going Online [60.887637616379926]
本稿では,学習からランクへ学習するための評価器・ジェネレータフレームワークを提案する。
コンテキストを含むレコメンデーションを一般化して評価する評価器と、強化学習による評価器スコアを最大化するジェネレータとから構成される。
本手法は, オンラインA/Bテストにおける産業レベルの微調整モデルよりも, 変換率(CR)の面で大幅に向上する。
論文 参考訳(メタデータ) (2020-03-25T10:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。