論文の概要: Binary Classifier Optimization for Large Language Model Alignment
- arxiv url: http://arxiv.org/abs/2404.04656v1
- Date: Sat, 6 Apr 2024 15:20:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 20:09:57.372321
- Title: Binary Classifier Optimization for Large Language Model Alignment
- Title(参考訳): 大規模言語モデルアライメントのためのバイナリ分類器最適化
- Authors: Seungjae Jung, Gunsoo Han, Daniel Wontae Nam, Kyoung-Woon On,
- Abstract要約: 本稿では,バイナリ信号によるアライメントの成功を説明する理論的基礎について述べる。
報酬シフトと基礎となる分布マッチングという,効果的なアライメントのための2つの手法を同定する。
我々のモデルは、2つの基本LLMと3つの異なるバイナリ信号データセット間で有効でロバストなアライメントを一貫して示す。
- 参考スコア(独自算出の注目度): 4.61411484523337
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Aligning Large Language Models (LLMs) to human preferences through preference optimization has been crucial but labor-intensive, necessitating for each prompt a comparison of both a chosen and a rejected text completion by evaluators. Recently, Kahneman-Tversky Optimization (KTO) has demonstrated that LLMs can be aligned using merely binary "thumbs-up" or "thumbs-down" signals on each prompt-completion pair. In this paper, we present theoretical foundations to explain the successful alignment achieved through these binary signals. Our analysis uncovers a new perspective: optimizing a binary classifier, whose logit is a reward, implicitly induces minimizing the Direct Preference Optimization (DPO) loss. In the process of this discovery, we identified two techniques for effective alignment: reward shift and underlying distribution matching. Consequently, we propose a new algorithm, \textit{Binary Classifier Optimization}, that integrates the techniques. We validate our methodology in two settings: first, on a paired preference dataset, where our method performs on par with DPO and KTO; and second, on binary signal datasets simulating real-world conditions with divergent underlying distributions between thumbs-up and thumbs-down data. Our model consistently demonstrates effective and robust alignment across two base LLMs and three different binary signal datasets, showcasing the strength of our approach to learning from binary feedback.
- Abstract(参考訳): 大きな言語モデル(LLM)を好みの最適化を通じて人間の好みに適応させることは重要であるが、それぞれのプロンプトに労働集約的であり、評価者によって選択されたテキストと拒否されたテキストの比較が必要である。
近年、KTO (Kahneman-Tversky Optimization) は、各プロンプト・コンプリート・ペア上で、単に2つの"thumbs-up"信号や"thumbs-down"信号を使ってLCMを整列させることができることを示した。
本稿では、これらのバイナリ信号によって達成されたアライメントを理論的に説明するための基礎について述べる。
我々の分析では、ロジットが報酬であるバイナリ分類器を最適化することで、直接優先度最適化(DPO)損失の最小化を暗黙的に誘導する、という新しい視点を明らかにした。
この発見の過程で、報酬シフトと基礎となる分布マッチングという、効果的なアライメントのための2つのテクニックを特定した。
そこで本研究では,この手法を統合した新しいアルゴリズムである‘textit{Binary Classifier Optimization} を提案する。
提案手法は,DPOとKTOと同等に動作するペア選好データセットと,親指アップデータと親指ダウンデータの間で異なる基底分布を持つ実世界の条件をシミュレートしたバイナリ信号データセットの2つの設定で検証する。
我々のモデルは、2つの基本LLMと3つの異なるバイナリ信号データセット間で有効でロバストなアライメントを示し、バイナリフィードバックから学習するアプローチの強みを示します。
関連論文リスト
- Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Preference Alignment Improves Language Model-Based TTS [76.70693823683091]
選好アライメントアルゴリズムは、報酬モデルの嗜好に合わせてLMを調整し、生成されたコンテンツの望ましさを高める。
1.15B のパラメータ LM に基づく TTS モデルを用いて、嗜好の整合性は常に知性、話者類似性、代用主観的評価スコアを向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T01:58:19Z) - Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment [105.34140537748546]
我々はFIGAという改良されたアライメント手法を提案し、従来の手法とは異なり、良質な応答と悪質な応答の対比から導出されるきめ細かい品質信号を取り込む。
まず、初期応答とそれに対応する修正データセットをペアリングする精巧なアライメントデータセットをキュレートする。
第2に,LLMの微粒な品質信号を利用してアライメントの学習を指導する新たな損失関数を考案する。
論文 参考訳(メタデータ) (2023-11-07T15:36:40Z) - Bidirectional Looking with A Novel Double Exponential Moving Average to
Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。
我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文 参考訳(メタデータ) (2023-07-02T18:16:06Z) - FOSI: Hybrid First and Second Order Optimization [11.447526245792154]
本稿では,最適化プロセス中に二階情報を効率的に組み込むことにより,任意の一階目の性能を向上させるメタアルゴリズムFOSIを提案する。
我々の経験的評価は、FOSIがヘビーボールやアダムのような一階法の収束率と最適化時間を向上し、二階法(K-FAC, L-BFGS)よりも優れていることを示している。
論文 参考訳(メタデータ) (2023-02-16T18:45:46Z) - DAG Learning on the Permutahedron [33.523216907730216]
本稿では,観測データから潜在有向非巡回グラフ(DAG)を発見するための連続最適化フレームワークを提案する。
提案手法は、置換ベクトル(いわゆるペルムタヘドロン)のポリトープを最適化し、位相的順序付けを学習する。
論文 参考訳(メタデータ) (2023-01-27T18:22:25Z) - AdaBin: Improving Binary Neural Networks with Adaptive Binary Sets [27.022212653067367]
本稿では,重みとアクティベーションを共に1ビット値に分割したBNN(Binary Neural Networks)について検討する。
最適二元集合を適応的に得るために、AdaBin と呼ばれる単純で効果的なアプローチを提案する。
ベンチマークモデルとデータセットの実験結果は、提案されたAdaBinが最先端のパフォーマンスを達成可能であることを示している。
論文 参考訳(メタデータ) (2022-08-17T05:43:33Z) - On Second-order Optimization Methods for Federated Learning [59.787198516188425]
フェデレート学習環境における局所的なステップを持つ2階分散手法の性能評価を行った。
本稿では,更新のための2階ローカル情報とグローバルライン検索を用いて,結果の局所的特異性に対処する新たな変種を提案する。
論文 参考訳(メタデータ) (2021-09-06T12:04:08Z) - Domain Adaptive Person Re-Identification via Coupling Optimization [58.567492812339566]
ドメイン適応型人物再識別(ReID)は、ドメインのギャップとターゲットシナリオに対するアノテーションの不足のために困難である。
本稿では,ドメイン不変写像 (DIM) 法とグローバル局所距離最適化 (GLO) を含む結合最適化手法を提案する。
GLOはターゲットドメインの教師なし設定でReIDモデルをトレーニングするために設計されている。
論文 参考訳(メタデータ) (2020-11-06T14:01:03Z) - Unsupervised Deep Cross-modality Spectral Hashing [65.3842441716661]
このフレームワークは、最適化をバイナリ最適化とハッシュ関数学習に分離する2段階のハッシュアプローチである。
本稿では,単一モダリティと二項相互モダリティを同時に学習するスペクトル埋め込みに基づく新しいアルゴリズムを提案する。
我々は、画像に強力なCNNを活用し、テキストモダリティを学ぶためのCNNベースのディープアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-08-01T09:20:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。