論文の概要: Relative Density Ratio Optimization for Stable and Statistically Consistent Model Alignment
- arxiv url: http://arxiv.org/abs/2604.04410v1
- Date: Mon, 06 Apr 2026 04:21:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.089278
- Title: Relative Density Ratio Optimization for Stable and Statistically Consistent Model Alignment
- Title(参考訳): 安定かつ統計的に一貫性のあるモデルアライメントに対する相対密度比最適化
- Authors: Hiroshi Takahashi, Tomoharu Iwata, Atsutoshi Kumagai, Sekitoshi Kanai, Masanori Yamada, Kosuke Nishida, Kazutoshi Shinoda,
- Abstract要約: 直接密度比最適化(DDRO)は、人間の選好モデルを仮定することなく統計的整合性を達成する。
本稿では,安定かつ統計的に一貫した新しいアライメント手法を提案する。
- 参考スコア(独自算出の注目度): 40.653679055257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning language models with human preferences is essential for ensuring their safety and reliability. Although most existing approaches assume specific human preference models such as the Bradley-Terry model, this assumption may fail to accurately capture true human preferences, and consequently, these methods lack statistical consistency, i.e., the guarantee that language models converge to the true human preference as the number of samples increases. In contrast, direct density ratio optimization (DDRO) achieves statistical consistency without assuming any human preference models. DDRO models the density ratio between preferred and non-preferred data distributions using the language model, and then optimizes it via density ratio estimation. However, this density ratio is unstable and often diverges, leading to training instability of DDRO. In this paper, we propose a novel alignment method that is both stable and statistically consistent. Our approach is based on the relative density ratio between the preferred data distribution and a mixture of the preferred and non-preferred data distributions. Our approach is stable since this relative density ratio is bounded above and does not diverge. Moreover, it is statistically consistent and yields significantly tighter convergence guarantees than DDRO. We experimentally show its effectiveness with Qwen 2.5 and Llama 3.
- Abstract(参考訳): 安全性と信頼性を確保するためには、言語モデルを人間の好みで調整することが不可欠である。
既存のほとんどのアプローチではブラッドリー・テリーモデルのような特定の人間の嗜好モデルを想定しているが、この仮定は真の人間の嗜好を正確に捉えることができず、その結果、これらの手法は統計的に整合性がなく、すなわち、サンプルの数が増えるにつれて言語モデルが真の人間の嗜好に収束することを保証する。
対照的に、直接密度比最適化(DDRO)は、人間の選好モデルを仮定することなく統計的整合性を達成する。
DDROは、言語モデルを用いて、優先データと非優先データの間の密度比をモデル化し、密度比推定により最適化する。
しかし、この密度比は不安定であり、しばしば分岐し、DDROのトレーニング不安定が生じる。
本稿では,安定かつ統計的に一貫した新しいアライメント手法を提案する。
提案手法は, 優先データ分布と優先データ分布と非優先データ分布の混合データとの相対密度比に基づく。
この相対密度比は上に有界であり、分岐しないため、我々のアプローチは安定である。
さらに、統計的に一貫したものであり、DDROよりもはるかに厳密な収束を保証する。
Qwen 2.5 と Llama 3 を用いて実験を行った。
関連論文リスト
- Unbounded Density Ratio Estimation and Its Application to Covariate Shift Adaptation [6.455982311339433]
非有界密度比の推定は 統計的学習において 未調査だが重要な課題だ
既存の文献の多くは、密度比が一様有界か無有界かのどちらかであるが正確に知られていると仮定している。
ソースとターゲットの両方の分布からラベル付けされていないデータを活用する3段階推定法を提案する。
論文 参考訳(メタデータ) (2026-03-31T13:24:50Z) - Flow-Based Density Ratio Estimation for Intractable Distributions with Applications in Genomics [80.05951561886123]
我々は条件認識フローマッチングを利用して、生成軌道に沿った密度比を追跡するための1つの動的定式化を導出する。
クローズドフォーム比推定のためのシミュレーションベンチマーク上での競合性能を実証し,本手法が単一セルゲノミクスデータ解析における多目的タスクをサポートすることを示す。
論文 参考訳(メタデータ) (2026-02-27T17:27:55Z) - Direct Density Ratio Optimization: A Statistically Consistent Approach to Aligning Large Language Models [40.69646918673903]
直密度比最適化(DDRO)の新たなアライメント手法を提案する。
DDROは、好ましくない出力分布と好ましくない出力分布の密度比を直接推定し、明示的な人間の嗜好モデリングの必要性を回避する。
実験により、DDROは、多くの主要なベンチマークにおける既存の手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-05-12T13:36:25Z) - Nearest Neighbor Sampling for Covariate Shift Adaptation [7.940293148084844]
重みを推定しない新しい共変量シフト適応法を提案する。
基本的な考え方は、ソースデータセットの$k$-nearestの隣人によってラベル付けされたラベル付けされていないターゲットデータを直接扱うことだ。
実験の結果, 走行時間を大幅に短縮できることがわかった。
論文 参考訳(メタデータ) (2023-12-15T17:28:09Z) - Sobolev Space Regularised Pre Density Models [51.558848491038916]
本研究では,ソボレフ法則の正則化に基づく非パラメトリック密度推定法を提案する。
この方法は統計的に一貫したものであり、帰納的検証モデルを明確かつ一貫したものにしている。
論文 参考訳(メタデータ) (2023-07-25T18:47:53Z) - Two-Stage Robust and Sparse Distributed Statistical Inference for
Large-Scale Data [18.34490939288318]
本稿では,高次元データやオフレーヤによって汚染される可能性のある大規模データを含む設定において,統計的推論を行うという課題に対処する。
空間性を促進することによって高次元モデルに対処する2段階の分散および頑健な統計的推論手法を提案する。
論文 参考訳(メタデータ) (2022-08-17T11:17:47Z) - TraDE: Transformers for Density Estimation [101.20137732920718]
TraDEは自己回帰密度推定のための自己アテンションに基づくアーキテクチャである。
本稿では, 生成したサンプルを用いた回帰, 分布外検出, トレーニングデータにおける雑音に対する頑健性などのタスクについて述べる。
論文 参考訳(メタデータ) (2020-04-06T07:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。