論文の概要: A Semantically-Aware, Kernel-Enhanced, and Divergence-Rich Paradigm for Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2501.03271v1
- Date: Sun, 05 Jan 2025 00:08:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:50:58.905046
- Title: A Semantically-Aware, Kernel-Enhanced, and Divergence-Rich Paradigm for Direct Preference Optimization
- Title(参考訳): 直接選好最適化のためのセマンティック・アウェア・カーネル・エンハンス・ディバージェンス・リッチパラダイム
- Authors: Amitava Das, Suranjana Trivedy, Danush Khanna, Rajarshi Roy, Gurpreet Singh, Basab Ghosh, Yaswanth Narsupalli, Vinija Jain, Vasu Sharma, Aishwarya Naresh Reganti, Aman Chadha,
- Abstract要約: 大規模言語モデル(LLM)は、多くのアプリケーションをアンロックしただけでなく、様々な値や好みと整合させることの難しさも浮き彫りにしている。
直接選好最適化(DPO)は、アライメントの中心であるが、固定された発散と限られた特徴変換によって制約される。
- 参考スコア(独自算出の注目度): 6.303144414273044
- License:
- Abstract: The rapid rise of large language models (LLMs) has unlocked many applications but also underscores the challenge of aligning them with diverse values and preferences. Direct Preference Optimization (DPO) is central to alignment but constrained by fixed divergences and limited feature transformations. We propose DPO-Kernels, which integrates kernel methods to address these issues through four key contributions: (i) Kernelized Representations with polynomial, RBF, Mahalanobis, and spectral kernels for richer transformations, plus a hybrid loss combining embedding-based and probability-based objectives; (ii) Divergence Alternatives (Jensen-Shannon, Hellinger, Renyi, Bhattacharyya, Wasserstein, and f-divergences) for greater stability; (iii) Data-Driven Selection metrics that automatically choose the best kernel-divergence pair; and (iv) a Hierarchical Mixture of Kernels for both local precision and global modeling. Evaluations on 12 datasets demonstrate state-of-the-art performance in factuality, safety, reasoning, and instruction following. Grounded in Heavy-Tailed Self-Regularization, DPO-Kernels maintains robust generalization for LLMs, offering a comprehensive resource for further alignment research.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な普及は、多くのアプリケーションをアンロックしただけでなく、それらをさまざまな値や好みと整合させることの難しさも浮き彫りにしている。
直接選好最適化(DPO)は、アライメントの中心であるが、固定された発散と限られた特徴変換によって制約される。
DPO-Kernelsはカーネルメソッドを統合し、4つの重要なコントリビューションを通してこれらの問題に対処する。
一 よりリッチな変換のための多項式、RBF、マハラノビス及びスペクトルカーネルによるカーネル化表現及び埋め込みベースおよび確率ベース目的を組み合わせたハイブリッド損失
(二 より安定性を増すための分岐代替品(ジェンセン・シャノン、ヘリンジャー、レニイ、バタカリアヤ、ワッサーシュタイン及びf-ディバージェンス)
三 最適なカーネル分割ペアを自動的に選択するデータ駆動選択指標
(iv)局所的精度と大域的モデリングのためのカーネルの階層的混合。
12のデータセットの評価は、事実性、安全性、推論、その後の指示における最先端のパフォーマンスを示している。
DPO-Kernelsはヘビープレートの自己正規化に基礎を置いており、LLMの堅牢な一般化を維持しており、さらなるアライメント研究のための包括的な資源を提供している。
関連論文リスト
- MIK: Modified Isolation Kernel for Biological Sequence Visualization, Classification, and Clustering [3.9146761527401424]
本研究は,ガウスカーネルの代替として,改良分離カーネル (MIK) と呼ばれる新しいアプローチを提案する。
MIKは適応密度推定を用いて局所構造をより正確に捉え、ロバストネス対策を統合する。
局所的および大域的な構造の保存を改善し、組込み空間におけるクラスタとサブクラスタのより良い可視化を可能にする。
論文 参考訳(メタデータ) (2024-10-21T06:57:09Z) - Multiple Kernel Clustering via Local Regression Integration [4.856913393644719]
複数のカーネルメソッドは、複数のカーネルデータの固有の多様体構造をあまり考慮しない。
本稿ではまず,カーネル型局所回帰(CKLR)を用いたクラスタリング手法を提案する。
次に、マルチカーネルローカルレグレッション(CMKLR)を介してクラスタリングを行うように拡張する。
論文 参考訳(メタデータ) (2024-10-20T06:26:29Z) - Optimal Kernel Choice for Score Function-based Causal Discovery [92.65034439889872]
本稿では,データに最も適合する最適なカーネルを自動的に選択する,一般化スコア関数内のカーネル選択手法を提案する。
合成データと実世界のベンチマークの両方で実験を行い,提案手法がカーネル選択法より優れていることを示す。
論文 参考訳(メタデータ) (2024-07-14T09:32:20Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Sparsity-Aware Distributed Learning for Gaussian Processes with Linear
Multiple Kernel [22.23550794664218]
本稿では,新しいGP線形多重カーネル(LMK)と汎用空間認識型分散学習フレームワークを提案する。
このフレームワークには、複数のエージェント間の協調学習のための乗算器の量子化交互方向法(ADMM)が組み込まれている。
多様なデータセットを用いた実験により,提案手法の予測性能と効率性が向上した。
論文 参考訳(メタデータ) (2023-09-15T07:05:33Z) - A Unified Momentum-based Paradigm of Decentralized SGD for Non-Convex
Models and Heterogeneous Data [0.261072980439312]
非汎用目的に対する収束保証を提供するU.MP,D-MP,GT-Dという統一パラダイムを提案する。
理論的には、これらの非MPアルゴリズムに対して収束解析目的を2つのアプローチで提供する。
論文 参考訳(メタデータ) (2023-03-01T02:13:22Z) - Local Sample-weighted Multiple Kernel Clustering with Consensus
Discriminative Graph [73.68184322526338]
マルチカーネルクラスタリング(MKC)は、ベースカーネルの集合から最適な情報融合を実現するためにコミットされる。
本稿では,新しい局所サンプル重み付きマルチカーネルクラスタリングモデルを提案する。
実験により, LSWMKCはより優れた局所多様体表現を有し, 既存のカーネルやグラフベースのクラスタリングアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2022-07-05T05:00:38Z) - Kernel Identification Through Transformers [54.3795894579111]
カーネル選択はガウス過程(GP)モデルの性能決定において中心的な役割を果たす。
この研究は、高次元GP回帰モデルのためのカスタムカーネル関数を構築するという課題に対処する。
KITT: Kernel Identification through Transformersを提案する。
論文 参考訳(メタデータ) (2021-06-15T14:32:38Z) - Fast Distributionally Robust Learning with Variance Reduced Min-Max
Optimization [85.84019017587477]
分散的ロバストな教師付き学習は、現実世界のアプリケーションのための信頼性の高い機械学習システムを構築するための重要なパラダイムとして登場している。
Wasserstein DRSLを解くための既存のアルゴリズムは、複雑なサブプロブレムを解くか、勾配を利用するのに失敗する。
我々はmin-max最適化のレンズを通してwaserstein drslを再検討し、スケーラブルで効率的に実装可能な超勾配アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-04-27T16:56:09Z) - Flow-based Kernel Prior with Application to Blind Super-Resolution [143.21527713002354]
カーネル推定は一般にブラインド画像超解像(SR)の鍵となる問題の一つである
本稿では,カーネルモデリングのための正規化フローベースカーネルプリレント(fkp)を提案する。
合成および実世界の画像の実験により、提案したFKPがカーネル推定精度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2021-03-29T22:37:06Z) - Kernel k-Means, By All Means: Algorithms and Strong Consistency [21.013169939337583]
Kernel $k$クラスタリングは、非線形データの教師なし学習のための強力なツールである。
本稿では,最適化された局所解に対処するための一般的な手法を応用した結果を一般化する。
我々のアルゴリズムは、この非線形分離問題をよりよく解くために、Magricalization-minimization (MM) を利用している。
論文 参考訳(メタデータ) (2020-11-12T16:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。