論文の概要: HEAL: A Hypothesis-Based Preference-Aware Analysis Framework
- arxiv url: http://arxiv.org/abs/2508.19922v1
- Date: Wed, 27 Aug 2025 14:30:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.667528
- Title: HEAL: A Hypothesis-Based Preference-Aware Analysis Framework
- Title(参考訳): HEAL:仮説に基づく推論認識分析フレームワーク
- Authors: Yifu Huo, Chenglong Wang, Qiren Zhu, Shunjie Xing, Tong Xiao, Chunliang Zhang, Tongran Liu, Jinbo Zhu,
- Abstract要約: 本稿では,textbfHypothesis を用いた PrtextbfEference-aware textbfAnatextbfLysis Framework (HEAL) を提案する。
これは、仮説空間内の再ランクプロセスとして、選好アライメントを定式化する。
このフレームワークには、順序整合性を評価するためのランキング精度と、連続的なアライメントを評価するための優先強度相関の2つの補完的な指標が含まれている。
- 参考スコア(独自算出の注目度): 32.45006553398745
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Preference optimization methods like DPO have achieved remarkable performance in LLM alignment. However, the evaluation for these methods relies on a single response and overlooks other potential outputs, which could also be generated in real-world applications within this hypothetical space. To address this issue, this paper presents a \textbf{H}ypothesis-based Pr\textbf{E}ference-aware \textbf{A}na\textbf{L}ysis Framework (HEAL), a novel evaluation paradigm that formulates preference alignment as a re-ranking process within hypothesis spaces. The framework incorporates two complementary metrics: ranking accuracy for evaluating ordinal consistency and preference strength correlation for assessing continuous alignment. To facilitate this framework, we develop UniHypoBench, a unified hypothesis benchmark constructed from diverse instruction-response pairs. Through extensive experiments based on HEAL, with a particular focus on the intrinsic mechanisms of preference learning, we demonstrate that current preference learning methods can effectively capture preferences provided by proxy models while simultaneously suppressing negative samples. These findings contribute to preference learning research through two significant avenues. Theoretically, we introduce hypothesis space analysis as an innovative paradigm for understanding preference alignment. Practically, HEAL offers researchers robust diagnostic tools for refining preference optimization methods, while our empirical results identify promising directions for developing more advanced alignment algorithms capable of comprehensive preference capture.
- Abstract(参考訳): DPOのような優先度最適化手法はLLMアライメントにおいて顕著な性能を達成している。
しかし、これらの手法の評価は単一の応答に依存し、他の潜在的な出力を見落としている。
この問題に対処するために、仮説空間内の再ランク付けプロセスとして優先順位付けを定式化する新しい評価パラダイムである、Pr\textbf{E}ference-aware \textbf{A}na\textbf{L}ysis Framework (HEAL)を提案する。
このフレームワークには、順序整合性を評価するためのランキング精度と、連続的なアライメントを評価するための優先強度相関の2つの補完的な指標が含まれている。
このフレームワークを実現するために,多様な命令応答対から構築した統一的仮説ベンチマークであるUniHypoBenchを開発した。
HEALに基づく広範な実験を通じて、特に嗜好学習の本質的なメカニズムに焦点をあてて、現在の嗜好学習手法は、負のサンプルを同時に抑制しつつ、プロキシモデルによって提供される嗜好を効果的に捉えることができることを示した。
これらの知見は,2つの重要な経路を通した嗜好学習研究に寄与する。
理論的には、仮説空間分析は嗜好の整合性を理解するための革新的なパラダイムとして導入される。
HEALは、提案手法を改良するための堅牢な診断ツールを研究者に提供する一方、我々の実験結果は、包括的な選好キャプチャーが可能なより高度なアライメントアルゴリズムを開発するための有望な方向を特定する。
関連論文リスト
- Doubly-Robust Estimation of Counterfactual Policy Mean Embeddings [24.07815507403025]
反ファクトポリシーの下での成果の分配を推定することは、推薦、広告、医療といった領域における意思決定にとって重要である。
我々は、再生されたカーネルヒルベルト空間の反事実分布全体を表す新しいフレームワーク-Counterfactual Policy Mean Embedding (CPME) を解析する。
論文 参考訳(メタデータ) (2025-06-03T12:16:46Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - $i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization [12.266207199002604]
大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。
経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。
i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
論文 参考訳(メタデータ) (2024-05-24T05:42:11Z) - Source-Free Unsupervised Domain Adaptation with Hypothesis Consolidation
of Prediction Rationale [53.152460508207184]
Source-Free Unsupervised Domain Adaptation (SFUDA)は、モデルがターゲットのドメインラベルやソースドメインデータにアクセスせずに新しいドメインに適応する必要がある、という課題である。
本稿では,各サンプルについて複数の予測仮説を考察し,各仮説の背景にある理論的根拠について考察する。
最適性能を達成するために,モデル事前適応,仮説統合,半教師付き学習という3段階の適応プロセスを提案する。
論文 参考訳(メタデータ) (2024-02-02T05:53:22Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - An Operational Perspective to Fairness Interventions: Where and How to
Intervene [9.833760837977222]
フェアネス介入の評価と文脈化のための包括的枠組みを提案する。
予測パリティに関するケーススタディで、我々のフレームワークを実証する。
グループデータを使わずに予測パリティを実現することは困難である。
論文 参考訳(メタデータ) (2023-02-03T07:04:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。