論文の概要: Rethinking the Evaluation of Alignment Methods: Insights into Diversity, Generalisation, and Safety
- arxiv url: http://arxiv.org/abs/2509.12936v1
- Date: Tue, 16 Sep 2025 10:32:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.036325
- Title: Rethinking the Evaluation of Alignment Methods: Insights into Diversity, Generalisation, and Safety
- Title(参考訳): 配位方法の評価を再考する:多様性・一般化・安全性の考察
- Authors: Denis Janiak, Julia Moska, Dawid Motyka, Karolina Seweryn, Paweł Walkowiak, Bartosz Żuk, Arkadiusz Janz,
- Abstract要約: DPOとKTOは実際の精度で優れており、PPOとDPOは安全性に優れており、PPOは能動性と簡潔さのバランスが良い。
本研究は,よりバランスのとれた,信頼性の高い大規模言語モデルの開発を導く共通アライメント手法のトレードオフに関する知見を提供する。
- 参考スコア(独自算出の注目度): 1.0194024892377178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) require careful alignment to balance competing objectives - factuality, safety, conciseness, proactivity, and diversity. Existing studies focus on individual techniques or specific dimensions, lacking a holistic assessment of the inherent trade-offs. We propose a unified evaluation framework that compares LLM alignment methods (PPO, DPO, ORPO, KTO) across these five axes, using both in-distribution and out-of-distribution datasets. Leveraging a specialized LLM-as-Judge prompt, validated through human studies, we reveal that DPO and KTO excel in factual accuracy, PPO and DPO lead in safety, and PPO best balances conciseness with proactivity. Our findings provide insights into trade-offs of common alignment methods, guiding the development of more balanced and reliable LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現実性、安全性、簡潔性、積極性、多様性といった競合する目標のバランスをとるために、慎重に調整する必要がある。
既存の研究は個々の技術や特定の次元に焦点を合わせ、固有のトレードオフの全体的評価を欠いている。
本稿では,これら5つの軸間のLLMアライメント手法(PPO, DPO, ORPO, KTO)を,分布内および分布外の両方のデータセットを用いて比較する統合評価フレームワークを提案する。
人為的なLLM-as-Judgeプロンプトを応用し,DPOとKTOが実際の精度,PPOとDPOが安全性,PPOと能動性のバランスが良好であることを明らかにする。
本研究は, 共通アライメント手法のトレードオフに関する知見を提供し, よりバランスよく信頼性の高いLCMの開発を導くものである。
関連論文リスト
- Unveiling Trust in Multimodal Large Language Models: Evaluation, Analysis, and Mitigation [51.19622266249408]
MultiTrust-XはMLLMの信頼性問題を評価、分析、緩和するためのベンチマークである。
分類に基づいて、MultiTrust-Xには32のタスクと28のキュレートデータセットが含まれている。
私たちの実験は、現在のモデルに重大な脆弱性を明らかにします。
論文 参考訳(メタデータ) (2025-08-21T09:00:01Z) - A Comprehensive Evaluation framework of Alignment Techniques for LLMs [5.9090038202345]
本稿では,大規模言語モデル(LLM)におけるアライメント手法の多次元評価を提案する。
本フレームワークは、アライメント検出、アライメント品質、計算効率、ロバストネスの4つの重要な側面に沿ってメソッドを評価する。
論文 参考訳(メタデータ) (2025-08-13T16:42:01Z) - Alignment and Safety in Large Language Models: Safety Mechanisms, Training Paradigms, and Emerging Challenges [47.14342587731284]
本調査では,大規模言語モデル(LLM)アライメントにおけるアライメント手法,トレーニングプロトコル,経験的発見について概観する。
我々は多種多様なパラダイムをまたいだアライメント手法の開発を分析し、コアアライメント目標間の基本的なトレードオフを特徴づける。
我々は、直接選好最適化(DPO)、構成AI、脳インスパイアされた方法、アライメント不確実性定量化(AUQ)など、最先端技術について議論する。
論文 参考訳(メタデータ) (2025-07-25T20:52:58Z) - Beyond Single-Point Judgment: Distribution Alignment for LLM-as-a-Judge [24.862965044243168]
従来の手法は、人間の評価において固有の多様性と不確実性を見越して、単一点評価に依存していた。
本研究では,LLM生成した判定分布と経験的人的分布とを明確に整合させる新しいトレーニングフレームワークを提案する。
我々のフレームワークは、既存のオープンソースLCMや従来の単一点アライメント手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-05-18T08:33:09Z) - Value Compass Benchmarks: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は驚くべきブレークスルーを達成する。
価値を人間に合わせることは 責任ある開発に欠かせないものになっています
3つの望ましい目標を達成するLLMの評価はいまだに欠けている。
論文 参考訳(メタデータ) (2025-01-13T05:53:56Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models' Alignment [35.42539816648068]
本稿では,大規模言語モデル(LLM)の評価において考慮すべき重要な要素について,包括的に調査する。
この調査は、信頼性、安全性、公正性、誤用に対する抵抗性、説明可能性と推論、社会的規範への固執、堅牢性の7つの主要なカテゴリーをカバーしている。
結果は、一般に、より整合したモデルは、全体的な信頼性の観点から、より良いパフォーマンスを示す傾向があることを示している。
論文 参考訳(メタデータ) (2023-08-10T06:43:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。