論文の概要: Sampling Preferences Yields Simple Trustworthiness Scores
- arxiv url: http://arxiv.org/abs/2506.03399v1
- Date: Tue, 03 Jun 2025 21:14:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.058528
- Title: Sampling Preferences Yields Simple Trustworthiness Scores
- Title(参考訳): Smpling Preferences、シンプルな信頼度スコアを達成
- Authors: Sean Steinle,
- Abstract要約: 本研究は,多次元評価結果からスカラー信頼性スコアを抽出する選好サンプリングを導入する。
選好サンプリングは一貫して還元的であり、候補モデルのセットを100%削減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the onset of large language models (LLMs), the performance of artificial intelligence (AI) models is becoming increasingly multi-dimensional. Accordingly, there have been several large, multi-dimensional evaluation frameworks put forward to evaluate LLMs. Though these frameworks are much more realistic than previous attempts which only used a single score like accuracy, multi-dimensional evaluations can complicate decision-making since there is no obvious way to select an optimal model. This work introduces preference sampling, a method to extract a scalar trustworthiness score from multi-dimensional evaluation results by considering the many characteristics of model performance which users value. We show that preference sampling improves upon alternate aggregation methods by using multi-dimensional trustworthiness evaluations of LLMs from TrustLLM and DecodingTrust. We find that preference sampling is consistently reductive, fully reducing the set of candidate models 100% of the time whereas Pareto optimality never reduces the set by more than 50%. Likewise, preference sampling is consistently sensitive to user priors-allowing users to specify the relative weighting and confidence of their preferences-whereas averaging scores is intransigent to the users' prior knowledge.
- Abstract(参考訳): 大規模言語モデル(LLM)の登場に伴い、人工知能モデル(AI)の性能はますます多次元化しつつある。
したがって、LLMを評価するために、大規模で多次元的な評価フレームワークがいくつもある。
これらのフレームワークは、精度のような単一のスコアのみを使用する以前の試みよりもはるかに現実的であるが、最適モデルを選択する明確な方法がないため、多次元評価は意思決定を複雑にすることができる。
本研究は,ユーザが評価するモデル性能の特徴を多次元評価結果からスカラー信頼度スコアを抽出する手法である選好サンプリングを導入する。
我々は,TrustLLMとDecodingTrustのLLMの多次元信頼度評価を用いて,代替アグリゲーション法により選好サンプリングが向上することを示す。
選好サンプリングは一貫して還元され、候補モデルの集合が100%減少するのに対して、パレートの最適性は集合を50%以上減少させることはない。
同様に、選好サンプリングは、ユーザの嗜好の相対重み付けと信頼度を指定するために、ユーザの優先知識に対して一貫して敏感である。
関連論文リスト
- HyPerAlign: Interpretable Personalized LLM Alignment via Hypothesis Generation [24.67727411391369]
HyPerAlignは、大規模言語モデルに対する解釈可能かつサンプル効率の仮説駆動パーソナライズアプローチである。
我々は2つの異なるパーソナライズタスク、すなわち著者帰属と熟考的アライメントについて実験を行った。
その結果、仮説駆動型パーソナライゼーションの方が好みに基づく微調整法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-29T18:01:46Z) - Efficient Evaluation of Large Language Models via Collaborative Filtering [25.734508624520164]
大規模言語モデル(LLM)は、異なるLLMの能力を測定し比較するために提案されている。
LLMの評価は、多数のテストインスタンスと遅い推論速度のためにコストがかかる。
与えられたベンチマーク上でモデルの実性能を効率的に推定する2段階手法を提案する。
論文 参考訳(メタデータ) (2025-04-05T07:46:30Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Comparison-based Active Preference Learning for Multi-dimensional Personalization [7.349038301460469]
大きな言語モデル(LLM)は目覚ましい成功を収めていますが、それらを人間の好みに合わせることは、依然として重要な課題です。
近年,多次元のパーソナライゼーションが研究されている。これはモデルが明示的な嗜好に合った応答を生成できるようにすることを目的としている。
対話的に収集された比較フィードバックから暗黙的なユーザの嗜好を捉えるために,能動多次元選好学習(AMPLe)を提案する。
論文 参考訳(メタデータ) (2024-11-01T11:49:33Z) - An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning
and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。
コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。
実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文 参考訳(メタデータ) (2023-05-19T17:49:25Z) - Post-Selection Confidence Bounds for Prediction Performance [2.28438857884398]
機械学習では、潜在的に多くの競合モデルから有望なモデルを選択し、その一般化性能を評価することが重要な課題である。
本稿では,評価セットの予測性能に基づいて選択された複数のモデルに対して,有効な低信頼境界を求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-24T13:28:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。