論文の概要: Beyond Log Likelihood: Probability-Based Objectives for Supervised Fine-Tuning across the Model Capability Continuum
- arxiv url: http://arxiv.org/abs/2510.00526v1
- Date: Wed, 01 Oct 2025 05:17:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.396137
- Title: Beyond Log Likelihood: Probability-Based Objectives for Supervised Fine-Tuning across the Model Capability Continuum
- Title(参考訳): Beyond Log Likelihood: モデル能力連続体を超越した細調整のための確率ベースオブジェクト
- Authors: Gaotang Li, Ruizhong Qiu, Xiusi Chen, Heng Ji, Hanghang Tong,
- Abstract要約: 確率に基づく目的のファミリーを研究し、異なる条件下での有効性を特徴付ける。
客観的行動を管理する重要な次元、すなわちモデル能力の連続性を明らかにする。
我々の理論的分析は、目的が連続体を横断してどのように取引されるかをさらに解明し、目的をモデル能力に適応するための原則的な基盤を提供する。
- 参考スコア(独自算出の注目度): 88.90314335542281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised fine-tuning (SFT) is the standard approach for post-training large language models (LLMs), yet it often shows limited generalization. We trace this limitation to its default training objective: negative log likelihood (NLL). While NLL is classically optimal when training from scratch, post-training operates in a different paradigm and could violate its optimality assumptions, where models already encode task-relevant priors and supervision can be long and noisy. To this end, we study a general family of probability-based objectives and characterize their effectiveness under different conditions. Through comprehensive experiments and extensive ablation studies across 7 model backbones, 14 benchmarks, and 3 domains, we uncover a critical dimension that governs objective behavior: the model-capability continuum. Near the model-strong end, prior-leaning objectives that downweight low-probability tokens (e.g., $-p$, $-p^{10}$, thresholded variants) consistently outperform NLL; toward the model-weak end, NLL dominates; in between, no single objective prevails. Our theoretical analysis further elucidates how objectives trade places across the continuum, providing a principled foundation for adapting objectives to model capability. Our code is available at https://github.com/GaotangLi/Beyond-Log-Likelihood.
- Abstract(参考訳): Supervised Fine-tuning (SFT) は、大規模言語モデル (LLM) の訓練後の標準的なアプローチである。
この制限は、デフォルトのトレーニング目標である負のログ可能性(NLL)に遡る。
NLLはスクラッチからトレーニングする場合、古典的には最適であるが、ポストトレーニングは異なるパラダイムで動作し、その最適性仮定に違反する可能性がある。
この目的のために,確率に基づく目的の一般ファミリーを調査し,その効果を異なる条件下で特徴づける。
7つのモデルバックボーン、14のベンチマーク、および3つのドメインにわたる包括的な実験と広範囲なアブレーション研究を通じて、客観的な振る舞いを管理する重要な次元、すなわちモデル能力連続体を明らかにする。
モデル-強度の端近くでは、事前の目的として、ダウンウェイトな低確率トークン(例えば、$-p$, $-p^{10}$, thresholded variants)が一貫してNLLを上回っている。
我々の理論的分析は、目的が連続体を横断してどのように取引されるかをさらに解明し、目的をモデル能力に適応するための原則的な基盤を提供する。
私たちのコードはhttps://github.com/GaotangLi/Beyond-Log-Likelihood.comで利用可能です。
関連論文リスト
- Alignment as Distribution Learning: Your Preference Model is Explicitly a Language Model [12.063078727764045]
人間のフィードバックからの強化学習によるアライメントは理論的正当性に欠け、決定論的解のインセンティブを与える。
本稿では, 優先最大推定, 優先蒸留, 逆KL最小化の3つの基本学習目標を提案する。
我々は、我々の分布学習フレームワーク、特に嗜好蒸留が、RLHFとDPOのパフォーマンスを一貫して上回るか、あるいは一致しているかを実証的に示す。
論文 参考訳(メタデータ) (2025-06-02T10:36:31Z) - Continuous Visual Autoregressive Generation via Score Maximization [69.67438563485887]
本稿では,ベクトル量子化なしで直接視覚的自己回帰生成を可能にする連続VARフレームワークを提案する。
このフレームワークの中で必要なのは、厳密な適切なスコアを選択し、最適化のトレーニング目標として設定することだけです。
論文 参考訳(メタデータ) (2025-05-12T17:58:14Z) - DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。
実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Contextual Classification Using Self-Supervised Auxiliary Models for
Deep Neural Networks [6.585049648605185]
自己監督型自動学習(SSAL)モデルの概念を紹介します。
SSALの目的は、元の教師付き分類タスクから派生した1つ以上の追加目標によって実現される。
SSALモデルは、より解釈しやすい構造化された予測を提供しながら、常に最先端を上回ります。
論文 参考訳(メタデータ) (2021-01-07T18:41:16Z) - Objective Mismatch in Model-based Reinforcement Learning [14.92062504466269]
モデルベース強化学習(MBRL)は、連続タスクをデータ効率よく学習するための強力なフレームワークであることが示されている。
私たちは、標準のMBRLフレームワークの根本的な問題、すなわち、客観的なミスマッチ問題を特定します。
本稿では,動的モデルトレーニングの再重み付けによるミスマッチ問題を緩和するための初期手法を提案する。
論文 参考訳(メタデータ) (2020-02-11T16:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。