論文の概要: Putting HUMANS first: Efficient LAM Evaluation with Human Preference Alignment
- arxiv url: http://arxiv.org/abs/2605.00022v1
- Date: Mon, 20 Apr 2026 00:57:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 06:56:26.409649
- Title: Putting HUMANS first: Efficient LAM Evaluation with Human Preference Alignment
- Title(参考訳): HUMANSを第一に考える:人間の選好アライメントを用いた効率的なLAM評価
- Authors: Woody Haosheng Gan, William Held, Diyi Yang,
- Abstract要約: わずか50個のサンプル(0.3%のデータ)のサブセットは、完全なベンチマークスコアと0.93以上のピアソン相関を達成可能であることを示す。
選好をより良く予測するために、選択したサブセットの回帰モデルを訓練し、0.98の相関を達成した。
これは回帰モデリングにおいて、よく計算されたサブセットが完全なベンチマークを予測し、量を超える品質を示すことを示している。
- 参考スコア(独自算出の注目度): 53.72927532626824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid proliferation of large audio models (LAMs) demands efficient approaches for model comparison, yet comprehensive benchmarks are costly. To fill this gap, we investigate whether minimal subsets can reliably evaluate LAMs while reducing costs and data redundancy. Analyzing 10 subset selection methods with 18 audio models across 40 tasks covering major LAM evaluation dimensions, we show that subsets of just 50 examples (0.3% of data) can achieve over 0.93 Pearson correlation with full benchmark scores. To understand how well these scores align with what practitioners ultimately care about, user satisfaction, we collect 776 human preference ratings from realistic voice assistant conversations, finding that both subsets and full benchmark achieve only 0.85 correlation with human. To better predict preferences, we trained regression models on these selected subsets, achieving 0.98 correlation -- outperforming regression models trained on both random subsets and the full benchmark. This demonstrates that in regression modeling, well-curated subsets outpredict the full benchmark, showing quality over quantity. We open-source these regression-weighted subsets as the HUMANS benchmark, an efficient proxy for LAM evaluation that captures both benchmark performance and user preferences.
- Abstract(参考訳): 大規模オーディオモデル(LAM)の急速な普及は、モデル比較に効率的なアプローチを必要とするが、包括的なベンチマークはコストがかかる。
このギャップを埋めるために、最小限のサブセットが、コストとデータ冗長性を低減しつつ、LAMを確実に評価できるかどうかを検討する。
主要なLAM評価次元をカバーするタスクを対象とする18の音響モデルを用いた10個のサブセット選択法を分析し,50個のサンプル(0.3%)のサブセットがベンチマークスコアと0.93以上のピアソン相関を達成可能であることを示す。
これらのスコアが、最終的に実践者が関心を持つもの、ユーザの満足度とどのように一致しているかを理解するために、現実的な音声アシスタントの会話から776人の人間の嗜好評価を収集し、サブセットと完全なベンチマークの両方が人間と0.85の相関しか達成していないことを発見した。
選好をより良く予測するために、選択したサブセットの回帰モデルをトレーニングし、0.98の相関を達成しました。
これは回帰モデリングにおいて、よく計算されたサブセットが完全なベンチマークを予測し、量を超える品質を示すことを示している。
我々は、これらの回帰重み付きサブセットを、LAM評価のための効率的なプロキシであるHUMANSベンチマークとしてオープンソース化し、ベンチマーク性能とユーザの好みの両方をキャプチャする。
関連論文リスト
- Towards Reward Modeling for AI Tutors in Math Mistake Remediation [13.755739827287542]
重み付きサムランキングに基づいて訓練されたBradley-Terry選好モデルの開発とリリースを行う。
合成データのみを用いて、人間の嗜好テストにおいて最適なモデルが0.69対の精度に達する。
論文 参考訳(メタデータ) (2026-03-25T14:56:08Z) - Scales++: Compute Efficient Evaluation Subset Selection with Cognitive Scales Embeddings [23.9553588103042]
本稿では,タスク項目自体の本質的な特性に基づいて選択を行うことを論じ,サブセット選択をベンチマークする項目中心のアプローチを提案する。
Scales++は、競争力のある予測忠実性を達成しながら、事前選択コストを18倍以上削減します。
この項目中心のアプローチは,忠実度を著しく低下させることなく,より効率的なモデル評価を可能にすることを実証する。
論文 参考訳(メタデータ) (2025-10-30T11:28:58Z) - Signal and Noise: A Framework for Reducing Uncertainty in Language Model Evaluation [103.66549325018741]
現在のベンチマークの違いを示す2つの重要な指標を紹介します。
より優れた信号対雑音比を持つベンチマークは、小規模で意思決定を行う場合、より信頼性が高いことを示す。
結論は、新しいベンチマークを作成する人や、どの既存のベンチマークを使うかを選択する人は、高い信号と低いノイズを目標にすることを推奨する。
論文 参考訳(メタデータ) (2025-08-18T17:56:04Z) - Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval [49.1574468325115]
トレーニング済みのAmharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを提案する。
提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10の相対的な改善を17.6%達成する。
RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
論文 参考訳(メタデータ) (2025-05-25T23:06:20Z) - Grounding Synthetic Data Evaluations of Language Models in Unsupervised Document Corpora [9.871701356351542]
言語モデル(LM)は進化を続け、応答品質と一貫性を改善している。
モデル品質、応答適性、推論能力を評価するために、数多くの評価ベンチマークが作成されている。
本稿では,文書群を基盤としたファクトベース合成データモデル評価の自動化手法を提案する。
論文 参考訳(メタデータ) (2025-05-13T18:50:03Z) - Mind the Gap! Static and Interactive Evaluations of Large Audio Models [55.87220295533817]
大型オーディオモデル(LAM)は、音声ネイティブな体験をパワーアップするために設計されている。
本研究は,484名の参加者から,LAMを評価し,7,500名のLAMインタラクションを収集する対話的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-21T20:29:02Z) - Data Efficient Evaluation of Large Language Models and Text-to-Image Models via Adaptive Sampling [3.7467864495337624]
SubLIMEはテキスト・ツー・イメージ・モデルのためのデータ効率評価フレームワークである。
我々のアプローチは、完全なデータセットと比較して統計的に整合したモデルランキングを保証する。
HEIMのリーダーボードを利用して、17の異なるベンチマークで25のテキスト・ツー・イメージモデルをカバーしています。
論文 参考訳(メタデータ) (2024-06-21T07:38:55Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。