論文の概要: Understanding the Logic of Direct Preference Alignment through Logic
- arxiv url: http://arxiv.org/abs/2412.17696v1
- Date: Mon, 23 Dec 2024 16:23:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:59:33.742111
- Title: Understanding the Logic of Direct Preference Alignment through Logic
- Title(参考訳): 論理による直接選好アライメントの論理理解
- Authors: Kyle Richardson, Vivek Srikumar, Ashish Sabharwal,
- Abstract要約: 本稿では,単一モデルと参照モデルに基づくアプローチの選好損失を特徴付ける新しいフォーマリズムを提案する。
そこで我々は,この嗜好学習の形式的視点が,DPA損失景観の大きさと構造の両方に新たな光を当てていることを示す。
- 参考スコア(独自算出の注目度): 54.272600416107146
- License:
- Abstract: Recent direct preference alignment algorithms (DPA), such as DPO, have shown great promise in aligning large language models to human preferences. While this has motivated the development of many new variants of the original DPO loss, understanding the differences between these recent proposals, as well as developing new DPA loss functions, remains difficult given the lack of a technical and conceptual framework for reasoning about the underlying semantics of these algorithms. In this paper, we attempt to remedy this by formalizing DPA losses in terms of discrete reasoning problems. Specifically, we ask: Given an existing DPA loss, can we systematically derive a symbolic expression that characterizes its semantics? How do the semantics of two losses relate to each other? We propose a novel formalism for characterizing preference losses for single model and reference model based approaches, and identify symbolic forms for a number of commonly used DPA variants. Further, we show how this formal view of preference learning sheds new light on both the size and structure of the DPA loss landscape, making it possible to not only rigorously characterize the relationships between recent loss proposals but also to systematically explore the landscape and derive new loss functions from first principles. We hope our framework and findings will help provide useful guidance to those working on human AI alignment.
- Abstract(参考訳): 近年のDPOのような直接選好アライメントアルゴリズム(DPA)は、大きな言語モデルと人間の選好の整合性を示す。
このことは、元のDPO損失の多くの新しい変種の開発を動機付けているが、これらの提案の違いを理解したり、新しいDPA損失関数を開発したりすることは、これらのアルゴリズムの基盤となる意味論を推論するための技術的および概念的な枠組みが欠如していることを考えると、依然として困難である。
本稿では、離散的推論問題の観点から、DPA損失を形式化し、これを是正しようと試みる。
既存のDPAの損失を考えると、その意味を特徴づけるシンボリックな表現を体系的に導き出せるだろうか?
2つの損失のセマンティクスは相互にどのように関係するのか?
本稿では、単一モデルと参照モデルに基づくアプローチの選好損失を特徴付けるための新しいフォーマリズムを提案し、多くの一般的なDPA変種に対する記号形式を同定する。
さらに、この嗜好学習の形式的見解が、DPA損失景観の大きさと構造の両方に新たな光を当て、最近の損失提案の関連性を厳格に特徴づけるだけでなく、ランドスケープを体系的に探索し、第一原理から新たな損失関数を導出することを可能にした。
私たちのフレームワークと発見が、人間のAIアライメントに取り組む人たちに有用なガイダンスを提供することを期待しています。
関連論文リスト
- Coherent Entity Disambiguation via Modeling Topic and Categorical
Dependency [87.16283281290053]
従来のエンティティ曖昧化(ED)メソッドは、参照コンテキストと候補エンティティの一致するスコアに基づいて予測を行う、識別パラダイムを採用している。
本稿では,エンティティ予測のコヒーレンス向上を目的とした新しいデザインを備えたEDシステムであるCoherentedを提案する。
我々は、人気EDベンチマークにおいて、平均1.3F1ポイントの改善により、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-11-06T16:40:13Z) - STAR Loss: Reducing Semantic Ambiguity in Facial Landmark Detection [80.04000067312428]
本稿では,意味的あいまいさの特性を利用した自己適応型あいまいさ低減(STAR)の損失を提案する。
意味的あいまいさは異方性予測分布をもたらすことが分かり、予測分布を用いて意味的あいまいさを表現する。
また,分布の異常変化とモデルの初期収束を回避できる2種類の固有値制限法を提案する。
論文 参考訳(メタデータ) (2023-06-05T10:33:25Z) - A novel approach for Fair Principal Component Analysis based on
eigendecomposition [10.203602318836444]
1次元探索からなる簡単な戦略を用いて,公平性問題に対処する新しいPCAアルゴリズムを提案する。
私たちの発見は、いくつかの現実の状況と、バランスの取れていないデータセットとバランスの取れていないデータセットの両方のシナリオで一致しています。
論文 参考訳(メタデータ) (2022-08-24T08:20:16Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - Learning explanations that are hard to vary [75.30552491694066]
例を越えた平均化は、異なる戦略を縫合する記憶とパッチワークのソリューションに有利であることを示す。
そこで我々は論理ANDに基づく単純な代替アルゴリズムを提案し,実験的に検証する。
論文 参考訳(メタデータ) (2020-09-01T10:17:48Z) - Rule-based Bayesian regression [0.90238471756546]
回帰問題に対処する新しいルールベースのアプローチを導入する。
新しい手法は2つの枠組みから成り立っている: (i)ベイズ的推論を用いて利害パラメータの不確実性に関する情報を提供する; (ii)ルールベースのシステムを通じて専門家の知識を組み込むことを可能にする。
論文 参考訳(メタデータ) (2020-08-02T07:20:45Z) - Towards a Theoretical Understanding of the Robustness of Variational
Autoencoders [82.68133908421792]
敵攻撃や他の入力摂動に対する変分オートエンコーダ(VAE)の堅牢性を理解するために,我々は進出している。
確率モデルにおけるロバスト性のための新しい基準である$r$-robustnessを開発する。
遠心法を用いて訓練したVAEが、ロバストネスの指標でよく評価されていることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。