Fugu-MT 論文翻訳(概要): UniCBE: An Uniformity-driven Comparing Based Evaluation Framework with Unified Multi-Objective Optimization

論文の概要: UniCBE: An Uniformity-driven Comparing Based Evaluation Framework with Unified Multi-Objective Optimization

arxiv url: http://arxiv.org/abs/2502.11454v1
Date: Mon, 17 Feb 2025 05:28:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:45.095589
Title: UniCBE: An Uniformity-driven Comparing Based Evaluation Framework with Unified Multi-Objective Optimization
Title（参考訳）: UniCBE: 統一多目的最適化を用いた一様比較に基づく評価フレームワーク
Authors: Peiwen Yuan, Shaoxiong Feng, Yiwei Li, Xinglin Wang, Yueqi Zhang, Jiayi Shi, Chuyi Tan, Boyuan Pan, Yao Hu, Kan Li,
Abstract要約: 統一統一性駆動型CBEフレームワークUniCBEを提案する。 AlpacaEvalベンチマークでは、UniCBEは評価予算の17%以上を削減し、Pearsonと地上の真実との相関は0.995を超えている。新しいモデルが継続的に導入されるシナリオでは、UniCBEは評価コストの50%以上を節約できる。
参考スコア（独自算出の注目度）: 19.673388630963807
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Human preference plays a significant role in measuring large language models and guiding them to align with human values. Unfortunately, current comparing-based evaluation (CBE) methods typically focus on a single optimization objective, failing to effectively utilize scarce yet valuable preference signals. To address this, we delve into key factors that can enhance the accuracy, convergence, and scalability of CBE: suppressing sampling bias, balancing descending process of uncertainty, and mitigating updating uncertainty. Following the derived guidelines, we propose UniCBE, a unified uniformity-driven CBE framework which simultaneously optimize these core objectives by constructing and integrating three decoupled sampling probability matrices, each designed to ensure uniformity in specific aspects. We further ablate the optimal tuple sampling and preference aggregation strategies to achieve efficient CBE. On the AlpacaEval benchmark, UniCBE saves over 17% of evaluation budgets while achieving a Pearson correlation with ground truth exceeding 0.995, demonstrating excellent accuracy and convergence. In scenarios where new models are continuously introduced, UniCBE can even save over 50% of evaluation costs, highlighting its improved scalability.
Abstract（参考訳）: 人間の嗜好は、大きな言語モデルを測定し、人間の価値観に合わせるよう導く上で重要な役割を果たす。残念なことに、現在の比較ベース評価(CBE)手法は、通常は単一の最適化目標に重点を置いており、少ないが価値のある選好信号の有効利用に失敗した。そこで我々は,CBEの精度,収束性,拡張性を向上する重要な要因を探索し,サンプリングバイアスの抑制,不確実性の低下過程のバランス,不確実性の緩和について検討する。提案するUniCBE(UniCBE)は,3つの分離されたサンプリング確率行列の構築と統合により,それぞれの目的を同時に最適化する統一一様性駆動型CBEフレームワークである。さらに,効率的なCBEを実現するために,最適タプルサンプリングと選好アグリゲーション戦略を改良する。 AlpacaEvalベンチマークでは、UniCBEは評価予算の17%以上を削減し、Pearson相関は0.995を超え、精度と収束性に優れていた。新しいモデルが継続的に導入されるシナリオでは、UniCBEは50%以上の評価コストを節約し、スケーラビリティの向上を強調します。

関連論文リスト

K-Sort Eval: Efficient Preference Evaluation for Visual Generation via Corrected VLM-as-a-Judge [51.93484138861584]
視覚生成モデルの急速な開発により、よりスケーラブルで人間に合わせた評価方法の必要性が高まっている。 K-Sort Evalは,後方補正と動的マッチングを統合した信頼性と効率的なVLMに基づく評価フレームワークである。実験の結果、K-Sort EvalはK-Sort Arenaと一致した評価結果を提供する。
論文参考訳（メタデータ） (2026-02-10T05:07:46Z)
Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。 SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2026-02-01T12:56:10Z)
Symmetric Aggregation of Conformity Scores for Efficient Uncertainty Sets [6.673032375204486]
複数の予測器から非整合性スコアを集約する新しい手法であるSACP(Symmetric Aggregated Conformal Prediction)を提案する。 SACP はこれらのスコアを e-値に変換し、任意の対称アグリゲーション関数を用いてそれらを結合する。我々はSACPが効率を継続的に改善し、しばしば最先端のモデルアグリゲーションベースラインを上回っていることを示す。
論文参考訳（メタデータ） (2025-12-07T17:54:07Z)
PDAC: Efficient Coreset Selection for Continual Learning via Probability Density Awareness [19.191960069245354]
リハーサルベースの連続学習(CL)は、知識保持のためのリプレイサンプルを保存するために、限られたメモリバッファを保持する。現在のリハーサルベースのCLメソッドは、通常、代表サブセットを選択してメモリバッファを構成する。本稿では,各試料の接合密度を推定する確率密度認識コアセット(PDAC)法を提案する。
論文参考訳（メタデータ） (2025-11-12T17:00:21Z)
CO-PFL: Contribution-Oriented Personalized Federated Learning for Heterogeneous Networks [51.43780477302533]
コントリビューション指向型PFL(CO-PFL)は,グローバルアグリゲーションに対する各クライアントのコントリビューションを動的に推定するアルゴリズムである。 CO-PFLは、パーソナライズ精度、堅牢性、スケーラビリティ、収束安定性において、最先端の手法を一貫して超越している。
論文参考訳（メタデータ） (2025-10-23T05:10:06Z)
ConfPO: Exploiting Policy Model Confidence for Critical Token Selection in Preference Optimization [48.50761200321113]
大型言語モデル(LLM)における嗜好学習手法ConfPOを紹介する。補助モデルや計算を必要とせずに、トレーニングポリシの信頼性のみに基づいて、優先クリティカルトークンを特定し、最適化する。 AlpacaEval 2 や Arena-Hard などのアライメントベンチマークの実験結果は、ConfPO が一様DAA を一貫して上回っていることを示している。
論文参考訳（メタデータ） (2025-06-10T11:54:22Z)
Robust and Computation-Aware Gaussian Processes [18.264598332579748]
本稿では,近似による不確実性の原理的処理と強一般化ベイズ更新を組み合わせた新しいGPモデルであるRobust Computation-Aware Gaussian Process (RCaGP)を紹介する。私たちのモデルは、より保守的で信頼性の高い不確実性評価を確実にします。実験の結果、これらの課題を共同で解決することで、クリーンな設定とアウターな設定の両方で優れたパフォーマンスが得られることが確認された。
論文参考訳（メタデータ） (2025-05-27T12:49:14Z)
Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [52.983390470606146]
人間の値に整合した出力を生成するために、大規模言語モデルを操る上で、優先順位アライメント手法はますます重要になっている。このようなシフトに拘わらず、好みのアライメントを改善する新しい分布対応最適化フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-08T09:14:38Z)
Understanding Likelihood Over-optimisation in Direct Alignment Algorithms [20.043560907227018]
ダイレクトアライメントアルゴリズム(DAA)は、ヒューマンフィードバックによるオンライン強化学習の代替として登場した。これらのアルゴリズムは、より良い(好ましくない)完了を生成する可能性を高めつつ、悪い(好ましくない)完了を阻止することを目的としている。本研究は,最先端DAAにおける完成可能性とモデル性能の関係について検討する。
論文参考訳（メタデータ） (2024-10-15T15:14:22Z)
Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文参考訳（メタデータ） (2024-09-17T14:05:58Z)
Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。 DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文参考訳（メタデータ） (2024-08-14T11:29:47Z)
Towards Stable Machine Learning Model Retraining via Slowly Varying Sequences [6.067007470552307]
そこで本研究では,リトレーニングを繰り返して安定なモデル列を見つけるためのモデルに依存しないフレームワークを提案する。最適モデルの復元が保証される混合整数最適化の定式化を開発する。平均的に、予測力の2%の低下は、安定性の30%の改善につながることが判明した。
論文参考訳（メタデータ） (2024-03-28T22:45:38Z)
MixedNUTS: Training-Free Accuracy-Robustness Balance via Nonlinearly Mixed Classifiers [41.56951365163419]
MixedNUTSは、ロバストな分類器の出力ロジットを3つのパラメータしか持たない非線形変換で処理する訓練不要の手法である。 MixedNUTSは変換されたロジットを確率に変換し、それらを全体の出力として混合する。 CIFAR-10、CIFAR-100、ImageNetデータセットでは、MixedNUTSの精度とほぼSOTAの堅牢性を大幅に改善した。
論文参考訳（メタデータ） (2024-02-03T21:12:36Z)
Density Ratio Estimation-based Bayesian Optimization with Semi-Supervised Learning [5.346298077607419]
この課題を解決するために,半教師付き学習を用いた密度比推定に基づくベイズ最適化を提案する。本手法の実証的な結果といくつかの基本手法を,未ラベルの点サンプリングと固定サイズのプールを持つ2つの異なるシナリオで示す。
論文参考訳（メタデータ） (2023-05-24T23:01:56Z)
GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。 GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文参考訳（メタデータ） (2023-04-19T14:58:27Z)
Fed-CBS: A Heterogeneity-Aware Client Sampling Mechanism for Federated Learning via Class-Imbalance Reduction [76.26710990597498]
本研究では,ランダムに選択したクライアントからのグループデータのクラス不均衡が,性能の大幅な低下につながることを示す。我々のキーとなる観測に基づいて、我々は効率的なクライアントサンプリング機構、すなわちフェデレートクラスバランスサンプリング(Fed-CBS)を設計する。特に、クラス不均衡の尺度を提案し、その後、同型暗号化を用いてプライバシー保護方式でこの尺度を導出する。
論文参考訳（メタデータ） (2022-09-30T05:42:56Z)
Evolving Pareto-Optimal Actor-Critic Algorithms for Generalizability and Stability [67.8426046908398]
汎用性と安定性は,実世界における強化学習(RL)エージェントの運用において重要な2つの目的である。本稿では,アクター・クリティック・ロス関数の自動設計法であるMetaPGを提案する。
論文参考訳（メタデータ） (2022-04-08T20:46:16Z)
Stochastic Optimization of Areas Under Precision-Recall Curves with Provable Convergence [66.83161885378192]
ROC(AUROC)と精度リコール曲線(AUPRC)の下の領域は、不均衡問題に対する分類性能を評価するための一般的な指標である。本稿では,深層学習のためのAUPRCの最適化手法を提案する。
論文参考訳（メタデータ） (2021-04-18T06:22:21Z)
Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。 AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文参考訳（メタデータ） (2020-10-24T07:01:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。