論文の概要: ContraSolver: Self-Alignment of Language Models by Resolving Internal Preference Contradictions
- arxiv url: http://arxiv.org/abs/2406.08842v1
- Date: Thu, 13 Jun 2024 06:08:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 21:08:42.567473
- Title: ContraSolver: Self-Alignment of Language Models by Resolving Internal Preference Contradictions
- Title(参考訳): ContraSolver: 言語モデルの自己アライメント
- Authors: Xu Zhang, Xunjian Yin, Xiaojun Wan,
- Abstract要約: 本研究では,選択順序に矛盾を見出すために,自己注釈付き応答間の嗜好関係のグラフ構造を構築した。
提案するContrarは、優先グラフ上のすべてのエッジをトラバースして、矛盾を引き起こす可能性のあるものを識別するアルゴリズムである。
- 参考スコア(独自算出の注目度): 45.42497294822871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While substantial advancements have been made in developing large language models (LLMs), achieving control over their behavior can be difficult. Direct preference optimization (DPO) assumes the existence of a latent reward function to evaluate the responses of LLMs. This assumption indicates a strict preference ordering of different responses to the same input. However, there always exist contradictions of preference in LLMs according to our experimental observations. In this paper, we construct a graph structure of the preference relationship among different responses with self-annotation to find contradictions in the preference order. We propose ContraSolver, an algorithm that traverses all edges on the preference graph to identify those that might cause contradictions. ContraSolver initializes the graph with a maximum spanning tree and identifies contradictory edges, prioritizing the resolution of low-confidence preferences while preserving high-confidence ones. Experimental results on four different generation tasks show that the performance of different LLMs can be largely improved through our completely unsupervised self-alignment. Furthermore, by analyzing the preference graphs of LLMs with and without self-alignment by ContraSolver, we quantify the reduction in contradictions, suggesting that resolving preference contradictions is crucial for achieving better alignment performance.
- Abstract(参考訳): 大規模言語モデル(LLM)の開発においてかなりの進歩があったが、それらの振る舞いを制御することは困難である。
直接選好最適化(DPO)は、LLMの応答を評価するために潜在報酬関数の存在を仮定する。
この仮定は、同じ入力に対する異なる応答の厳密な優先順序を示す。
しかし, LLMには, 実験観察による嗜好の矛盾が常に存在する。
本稿では,選択順序に矛盾点を見出すために,自己注釈付き応答間の嗜好関係のグラフ構造を構築した。
優先グラフ上のすべてのエッジを横切るアルゴリズムであるContraSolverを提案する。
ContraSolverはグラフを最大スパンニングツリーで初期化し、高信頼度を維持しながら低信頼度嗜好の解決を優先し、矛盾するエッジを識別する。
4つの異なる世代タスクに対する実験結果から、完全に教師なしの自己アライメントにより、異なるLSMの性能を大幅に改善できることが示された。
さらに,コントラソルバーによる自己アライメントを伴わないLLMの選好グラフを解析することにより,矛盾の低減を定量化し,より優れたアライメント性能を実現するためには,選好矛盾の解消が重要であることを示唆する。
関連論文リスト
- Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Aligning with Logic: Measuring, Evaluating and Improving Logical Consistency in Large Language Models [31.558429029429863]
我々は,より信頼性が高く信頼性の高いシステムのための前提条件として,Large Language Models (LLM) の論理的一貫性について検討する。
まず、推移性、可換性、否定不変性という3つの基本的なプロキシを通して論理的一貫性を定量化する普遍的枠組みを提案する。
次に,LLMの定義値を用いて論理的整合性を評価し,総合的ロバスト性のための強力なプロキシとして機能できることを実証する。
論文 参考訳(メタデータ) (2024-10-03T04:34:04Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives [45.87069217634753]
研究によると、外部からのフィードバックがなければ、Large Language Modelの本質的なリフレクションは不安定である。
我々の調査によると、重要なボトルネックは自己評価されたフィードバックの品質である。
要求に合わせて様々な解決の観点を適応的に探求し、相違点を対比し、これらの相違点を再検討し、相違点を排除するために使用できるチェックリストにまとめます。
論文 参考訳(メタデータ) (2024-01-04T00:32:33Z) - Causal Inference Using LLM-Guided Discovery [34.040996887499425]
グラフ変数(因果順序)に対する位相的順序は、因果効果の推論にのみ十分であることを示す。
本稿では,Large Language Models (LLMs) から因果順序を求める頑健な手法を提案する。
提案手法は発見アルゴリズムと比較して因果順序精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-10-23T17:23:56Z) - GPT-4 Doesn't Know It's Wrong: An Analysis of Iterative Prompting for
Reasoning Problems [16.284360949127723]
本稿では,グラフ着色事例の解決や候補着色点の正当性検証における GPT4 の性能に関する実証的研究について述べる。
本研究は,プロンプトの上位kの完備化において,正しい解が存在することによる有効性の増大が主な原因であることを示す。
論文 参考訳(メタデータ) (2023-10-19T00:56:37Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z) - Deep Probabilistic Graph Matching [72.6690550634166]
本稿では,マッチング制約を伴わずに,元のQAPに適合する深層学習ベースのグラフマッチングフレームワークを提案する。
提案手法は,一般的な3つのベンチマーク(Pascal VOC,Wilow Object,SPair-71k)で評価され,すべてのベンチマークにおいて過去の最先端よりも優れていた。
論文 参考訳(メタデータ) (2022-01-05T13:37:27Z) - Max-Margin Contrastive Learning [120.32963353348674]
教師なし表現学習のためのMMCL(max-margin contrastive learning)を提案する。
提案手法は2次最適化問題を用いて得られたスパース支持ベクトルとして負を選択する。
我々は、標準ビジョンベンチマークデータセットに対するアプローチを検証し、教師なし表現学習におけるより良い性能を示す。
論文 参考訳(メタデータ) (2021-12-21T18:56:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。