論文の概要: Probability-Entropy Calibration: An Elastic Indicator for Adaptive Fine-tuning
- arxiv url: http://arxiv.org/abs/2602.01745v1
- Date: Mon, 02 Feb 2026 07:27:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.977017
- Title: Probability-Entropy Calibration: An Elastic Indicator for Adaptive Fine-tuning
- Title(参考訳): 確率エントロピー校正:適応微調整のための弾性指標
- Authors: Wenhao Yu, Shaohang Wei, Jiahong Liu, Yifan Li, Minda Hu, Aiwei Liu, Hao Zhang, Irwin King,
- Abstract要約: RankTunerは確率エントロピーキャリブレーション信号、相対ランクインジケータを導入し、予測分布の下で接地トラストークンのランクと期待ランクを比較する。
逆インジケータはトークン単位の相対尺度として使用され、微調整の目的を再重み付けし、真に未学習のトークンを更新する。
- 参考スコア(独自算出の注目度): 55.2818264614932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Token-level reweighting is a simple yet effective mechanism for controlling supervised fine-tuning, but common indicators are largely one-dimensional: the ground-truth probability reflects downstream alignment, while token entropy reflects intrinsic uncertainty induced by the pre-training prior. Ignoring entropy can misidentify noisy or easily replaceable tokens as learning-critical, while ignoring probability fails to reflect target-specific alignment. RankTuner introduces a probability--entropy calibration signal, the Relative Rank Indicator, which compares the rank of the ground-truth token with its expected rank under the prediction distribution. The inverse indicator is used as a token-wise Relative Scale to reweight the fine-tuning objective, focusing updates on truly under-learned tokens without over-penalizing intrinsically uncertain positions. Experiments on multiple backbones show consistent improvements on mathematical reasoning benchmarks, transfer gains on out-of-distribution reasoning, and pre code generation performance over probability-only or entropy-only reweighting baselines.
- Abstract(参考訳): トークンレベルの再重み付けは、教師付き微調整を制御するためのシンプルで効果的なメカニズムであるが、一般的な指標は主に1次元であり、地中構造確率は下流のアライメントを反映し、トークンエントロピーは事前訓練によって引き起こされる本質的な不確実性を反映している。
無視エントロピーはノイズや置換可能なトークンを学習クリティカルと誤認することがあるが、確率を無視することは目標固有のアライメントを反映しない。
RankTunerは確率エントロピーキャリブレーション信号、相対ランクインジケータを導入し、予測分布の下で接地トラストークンのランクと期待ランクを比較する。
逆インジケータはトークンワイド相対尺度として使われ、微調整の目的を再重み付けし、本質的に不確実な位置を過度に減らさず、真に未学習のトークンに焦点を合わせている。
複数のバックボーンの実験では、数学的推論ベンチマーク、分布外推論における転送ゲイン、確率のみまたはエントロピーのみの再重み付けベースラインに対する事前コード生成性能が一貫した改善を示している。
関連論文リスト
- Taming the Tail: Stable LLM Reinforcement Learning via Dynamic Vocabulary Pruning [35.41241409574854]
推論エンジンと数値的精度のトレーニングシステムは、同じパラメータから異なる確率分布を生成し、トレーニング推論ミスマッチを生成する。
このようなトークンを刈り取ることで、大きな、体系的にバイアスのあるミスマッチを、小さな、境界付けられた最適化バイアスと交換する。
論文 参考訳(メタデータ) (2025-12-28T21:44:07Z) - From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature [38.46122853450324]
既存のアルゴリズムは全てのトークンに一様最適化を適用し、推論プロセスにおける異なる役割を無視している。
本稿では,トークンエントロピーに基づく最適化を動的に適用するトークン認識アルゴリズムであるヘテロジニアス適応ポリシー最適化(HAPO)を紹介する。
論文 参考訳(メタデータ) (2025-09-20T09:30:25Z) - Regularized Vector Quantization for Tokenized Image Synthesis [126.96880843754066]
画像の離散表現への量子化は、統合生成モデリングにおける根本的な問題である。
決定論的量子化は、厳しいコードブックの崩壊と推論段階の誤調整に悩まされ、一方、量子化は、コードブックの利用率の低下と再構築の目的に悩まされる。
本稿では、2つの視点から正規化を適用することにより、上記の問題を効果的に緩和できる正規化ベクトル量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-11T15:20:54Z) - Alignment Entropy Regularization [13.904347165738491]
エントロピーを用いてモデルの不確実性を測定する。
許容アライメントの小さな部分集合にのみ確率質量を分配するようモデルに促すエントロピー正則化の効果を評価する。
論文 参考訳(メタデータ) (2022-12-22T18:51:02Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z) - Evaluating probabilistic classifiers: Reliability diagrams and score
decompositions revisited [68.8204255655161]
確率的に統計的に一貫性があり、最適に結合し、再現可能な信頼性図を自動生成するCORP手法を導入する。
コーパスは非パラメトリックアイソトニック回帰に基づいており、プール・アジャセント・ヴァイオレータ(PAV)アルゴリズムによって実装されている。
論文 参考訳(メタデータ) (2020-08-07T08:22:26Z) - Optimal Change-Point Detection with Training Sequences in the Large and
Moderate Deviations Regimes [72.68201611113673]
本稿では,情報理論の観点から,新しいオフライン変化点検出問題について検討する。
基礎となる事前および変更後分布の知識は分かっておらず、利用可能なトレーニングシーケンスからのみ学習できると仮定する。
論文 参考訳(メタデータ) (2020-03-13T23:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。