論文の概要: Value Drifts: Tracing Value Alignment During LLM Post-Training
- arxiv url: http://arxiv.org/abs/2510.26707v1
- Date: Thu, 30 Oct 2025 17:09:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.930033
- Title: Value Drifts: Tracing Value Alignment During LLM Post-Training
- Title(参考訳): 価値ドリフト:LLM後のトレーニングにおける価値アライメントの追跡
- Authors: Mehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karolina Stańczak, Vered Shwartz, Siva Reddy,
- Abstract要約: モデルポストトレーニングの過程において、段階的価値アライメントがどのように生じるか、どの段階的価値アライメントが生じるかを検討する。
本研究は,ポストトレーニング中に価値がどのように学習されるかについて,実用的な知見を提供する。
- 参考スコア(独自算出の注目度): 37.472751808508235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LLMs occupy an increasingly important role in society, they are more and more confronted with questions that require them not only to draw on their general knowledge but also to align with certain human value systems. Therefore, studying the alignment of LLMs with human values has become a crucial field of inquiry. Prior work, however, mostly focuses on evaluating the alignment of fully trained models, overlooking the training dynamics by which models learn to express human values. In this work, we investigate how and at which stage value alignment arises during the course of a model's post-training. Our analysis disentangles the effects of post-training algorithms and datasets, measuring both the magnitude and time of value drifts during training. Experimenting with Llama-3 and Qwen-3 models of different sizes and popular supervised fine-tuning (SFT) and preference optimization datasets and algorithms, we find that the SFT phase generally establishes a model's values, and subsequent preference optimization rarely re-aligns these values. Furthermore, using a synthetic preference dataset that enables controlled manipulation of values, we find that different preference optimization algorithms lead to different value alignment outcomes, even when preference data is held constant. Our findings provide actionable insights into how values are learned during post-training and help to inform data curation, as well as the selection of models and algorithms for preference optimization to improve model alignment to human values.
- Abstract(参考訳): LLMは社会においてますます重要な役割を担っているため、一般知識だけでなく、特定の人的価値体系との整合性も要求される問題に直面している。
そのため、LLMと人的価値のアライメントを研究することは、調査の重要な分野となっている。
しかしながら、以前の研究は主に、モデルが人間の価値を表現することを学習するトレーニングのダイナミクスを見越して、完全に訓練されたモデルのアライメントを評価することに焦点を当てていた。
本研究では,モデル後学習の過程において,段階的価値アライメントがどのように生じるか,どの段階的価値アライメントが生じるかを検討する。
我々の分析は、トレーニング後のアルゴリズムとデータセットの影響を解消し、トレーニング中の価値ドリフトの大きさと時間を測定する。
異なるサイズのLlama-3およびQwen-3モデルとSFT(英語版)および優先最適化データセットおよびアルゴリズムを用いて実験したところ、SFTフェーズは一般的にモデルの値を確立し、その後の優先最適化がこれらの値を再調整することは滅多にないことがわかった。
さらに、値の制御を可能にする合成選好データセットを用いることで、選好データが一定に保持されている場合でも、異なる選好最適化アルゴリズムが異なる値アライメント結果をもたらすことが分かる。
本研究は,ポストトレーニング中にどのように価値が学習されるかについての実用的な知見を提供し,データキュレーションの報知に役立つとともに,人間の値に対するモデルアライメントを改善するための選好最適化のためのモデルとアルゴリズムの選択も提供する。
関連論文リスト
- Towards Understanding Valuable Preference Data for Large Language Model Alignment [85.38864561060088]
大規模言語モデル(LLM)のアライメントは通常、人間の好みの比較から学習することで達成される。
新たに提案したTruncated Influence Function (TIF) を用いた検証データに対する個人の影響によるデータ品質の評価を行う。
この目的のために、我々はそれらを組み合わせ、様々なエラーソースをオフセットし、単純だが効果的なデータ選択ルールをもたらす。
論文 参考訳(メタデータ) (2025-10-15T06:57:55Z) - Middo: Model-Informed Dynamic Data Optimization for Enhanced LLM Fine-Tuning via Closed-Loop Learning [44.53583316198435]
Supervised Fine-Tuning (SFT) Large Language Modelsは高品質なトレーニングデータに依存している。
自己進化型モデル駆動動的データ最適化フレームワークであるMiddoを紹介した。
その結果,Middoはシードデータの品質を継続的に向上し,LLMの性能を平均7.15%向上させることができた。
論文 参考訳(メタデータ) (2025-08-29T12:47:27Z) - LLM Data Selection and Utilization via Dynamic Bi-level Optimization [100.20933466418786]
本研究では,各バッチ内で選択したデータの重み付けを調整し,トレーニング中の動的データ利用を実現するための新しいデータ重み付けモデル(DWM)を提案する。
実験により,DWMはランダムに選択されたデータを用いて訓練されたモデルの性能を向上させることが示された。
さらに、トレーニング中にモデルのデータ嗜好がどのように進化するかを分析し、トレーニング中のモデルのデータ嗜好に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-07-22T02:47:12Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Self-Steering Optimization: Autonomous Preference Optimization for Large Language Models [79.84205827056907]
本稿では,高品質な嗜好データを自律的に生成するアルゴリズムであるセルフステアリング最適化(SSO$)を提案する。
$SSO$は、ポリシーモデル自体からデータジェネレータを構築するために、特別な最適化目標を採用しています。
評価の結果,$SSO$は人選好アライメントと報酬最適化のベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T16:04:03Z) - Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。
収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文 参考訳(メタデータ) (2024-10-22T00:11:41Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - Data-Driven Offline Decision-Making via Invariant Representation
Learning [97.49309949598505]
オフラインのデータ駆動意思決定は、アクティブなインタラクションなしで最適化された決定を合成する。
オフラインデータからトレーニングされたモデルへの入力に関して最適化する場合、誤って良いように見えるアウト・オブ・ディストリビューション(OOD)インプットを生成するのは簡単です。
本稿では、オフラインデータ駆動意思決定をドメイン適応として定式化し、最適化された決定値の正確な予測を行うことを目標とする。
論文 参考訳(メタデータ) (2022-11-21T11:01:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。