論文の概要: Chunky Post-Training: Data Driven Failures of Generalization
- arxiv url: http://arxiv.org/abs/2602.05910v1
- Date: Thu, 05 Feb 2026 17:25:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.084836
- Title: Chunky Post-Training: Data Driven Failures of Generalization
- Title(参考訳): Chunky Post-Training: 一般化におけるデータ駆動型障害
- Authors: Seoirse Murray, Allison Qi, Timothy Qian, John Schulman, Collin Burns, Sara Price,
- Abstract要約: LLMポストトレーニングには、さまざまなデータセットが含まれており、それぞれが特定の振る舞いをターゲットとしている。
これらのデータセットは、意図したパターンとともにインシデントパターンを符号化する。
乱雑なポストトレーニングは、しばしば不均衡または不特定なポストトレーニングデータのチャンクによる誤校正行動を引き起こすことを示す。
- 参考スコア(独自算出の注目度): 7.462138149157538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM post-training involves many diverse datasets, each targeting a specific behavior. But these datasets encode incidental patterns alongside intended ones: correlations between formatting and content, narrow phrasings across diverse problems, and implicit associations arising from the discrete data curation process. These patterns are often invisible to developers yet salient to models, producing behaviors that surprise their creators, such as rejecting true facts presented in a particular question format. We call this chunky post-training: the model learns spurious correlations as a result of distinct chunks of post-training data. We introduce SURF, a black-box pipeline which surfaces these unintended behaviors at run time, and TURF, a tool that traces these failures back to specific post-training data. Applying these tools to frontier models (Claude 4.5, GPT-5.1, Grok 4.1, Gemini 3) and open models (Tülu 3), we show that chunky post-training produces miscalibrated behaviors, which often result from imbalanced or underspecified chunks of post-training data.
- Abstract(参考訳): LLMポストトレーニングには、さまざまなデータセットが含まれており、それぞれが特定の振る舞いをターゲットとしている。
しかしこれらのデータセットは、フォーマッティングとコンテンツ間の相関、さまざまな問題にまたがる狭いフレーズ、離散データキュレーションプロセスから生じる暗黙の関連など、インシデントパターンを意図したものとしてエンコードする。
これらのパターンは、しばしば開発者には見えず、モデルに忠実で、特定の質問形式で提示された事実を拒否するなど、クリエイターを驚かせる行動を生み出します。
モデルは、トレーニング後のデータを個別に断片化した結果、突発的な相関関係を学習する。
我々は、これらの意図しない動作を実行時にサーフェスするブラックボックスパイプラインであるSURFと、これらの障害をトレーニング後の特定のデータにトレースするツールであるTURFを紹介する。
これらのツールをフロンティアモデル(Claude 4.5, GPT-5.1, Grok 4.1, Gemini 3)およびオープンモデル(Tülu 3)に適用すると、乱雑なポストトレーニングが誤校正された振る舞いを生じさせ、しばしば不均衡あるいは未特定なポストトレーニングデータのチャンクから生じることを示す。
関連論文リスト
- Distributional Training Data Attribution: What do Influence Functions Sample? [25.257922996567178]
分散学習データ属性(d-TDA)を導入する。
d-TDAの目標は、モデル出力の分布がデータセットに依存するかを予測することである。
影響関数 (IF) は「秘密分布」である。
論文 参考訳(メタデータ) (2025-06-15T21:02:36Z) - On Linear Representations and Pretraining Data Frequency in Language Models [54.756179696806356]
本研究では,事前学習データ周波数と実関係の線形表現との関係について検討する。
線形表現の形成が事前学習項周波数と強く結びついていることを示す。
LMにおける線形表現の強さは、モデルの事前学習コーパスに関する信号を含むと結論付けている。
論文 参考訳(メタデータ) (2025-04-16T19:50:03Z) - Collapse or Thrive? Perils and Promises of Synthetic Data in a Self-Generating World [19.266191284270793]
生成機械学習モデルは、以前のモデルによって生成されたデータを含むWebスケールデータセットで事前訓練される。
先行研究の中には、ウェブが合成データに圧倒されているため、"モデル崩壊"を警告するものもある。
本稿では,3つの生成モデルタスクセットにまたがるデータ(トレーニング・ワークフロー)の3つの使い方について実験を行った。
論文 参考訳(メタデータ) (2024-10-22T05:49:24Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Towards Understanding and Mitigating Dimensional Collapse in Heterogeneous Federated Learning [112.69497636932955]
フェデレートラーニングは、プライバシを考慮したデータ共有を必要とせずに、さまざまなクライアントでモデルをトレーニングすることを目的としている。
本研究では,データの不均一性がグローバル集約モデルの表現に与える影響について検討する。
フェデレーション学習における次元的崩壊を効果的に緩和する新しい手法である sc FedDecorr を提案する。
論文 参考訳(メタデータ) (2022-10-01T09:04:17Z) - Distilling Model Failures as Directions in Latent Space [87.30726685335098]
本稿では,モデルの故障モードを自動的に抽出するスケーラブルな方法を提案する。
線形分類器を用いて一貫したエラーパターンを識別し、これらの障害モードを特徴空間内の方向として自然な表現を誘導する。
このフレームワークにより、トレーニングデータセット内の課題のあるサブポピュレーションを発見し、自動的にキャプションし、これらのサブポピュレーションにおけるモデルのパフォーマンスを改善することができることを示す。
論文 参考訳(メタデータ) (2022-06-29T16:35:24Z) - Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles [66.15398165275926]
本稿では,データセット固有のパターンを自動的に検出・無視する手法を提案する。
我々の方法は、より高い容量モデルでアンサンブルで低容量モデルを訓練する。
視覚的質問応答データセットの10ポイントゲインを含む,すべての設定の改善を示す。
論文 参考訳(メタデータ) (2020-11-07T22:20:03Z) - Unshuffling Data for Improved Generalization [65.57124325257409]
トレーニングディストリビューションを越えた一般化は、マシンラーニングにおける中核的な課題である。
本研究では,複数の学習環境として扱われる非d.d.サブセットにデータを分割することで,アウト・オブ・ディストリビューションの一般化を向上したモデル学習を導出できることを示す。
論文 参考訳(メタデータ) (2020-02-27T03:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。