論文の概要: Rich Insights from Cheap Signals: Efficient Evaluations via Tensor Factorization
- arxiv url: http://arxiv.org/abs/2603.02029v1
- Date: Mon, 02 Mar 2026 16:12:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.963963
- Title: Rich Insights from Cheap Signals: Efficient Evaluations via Tensor Factorization
- Title(参考訳): チープシグナルからのリッチインサイト:テンソル因子化による効率的な評価
- Authors: Felipe Maia Polo, Aida Nematzadeh, Virginia Aglietti, Adam Fisch, Isabela Albuquerque,
- Abstract要約: 我々は、安価なオートラッターデータと限定されたヒトゴールドスタンダードラベルを融合する新しい統計モデルを提案する。
具体的には、オートラッタースコアを用いてプロンプトと生成モデルの潜在表現を事前学習する。
このサンプル効率の手法は、オートラッター品質に対して堅牢であり、標準基準よりも、プロンプト毎の人間の嗜好をより正確に予測する。
- 参考スコア(独自算出の注目度): 19.569943605233753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Moving beyond evaluations that collapse performance across heterogeneous prompts toward fine-grained evaluation at the prompt level, or within relatively homogeneous subsets, is necessary to diagnose generative models' strengths and weaknesses. Such fine-grained evaluations, however, suffer from a data bottleneck: human gold-standard labels are too costly at this scale, while automated ratings are often misaligned with human judgment. To resolve this challenge, we propose a novel statistical model based on tensor factorization that merges cheap autorater data with a limited set of human gold-standard labels. Specifically, our approach uses autorater scores to pretrain latent representations of prompts and generative models, and then aligns those pretrained representations to human preferences using a small calibration set. This sample-efficient methodology is robust to autorater quality, more accurately predicts human preferences on a per-prompt basis than standard baselines, and provides tight confidence intervals for key statistical parameters of interest. We also showcase the practical utility of our method by constructing granular leaderboards based on prompt qualities and by estimating model performance solely from autorater scores, eliminating the need for additional human annotations.
- Abstract(参考訳): 生成モデルの強みや弱さを診断するためには、不均一なプロンプト間での破壊性能が急進的なレベルや比較的均質なサブセットにおいてきめ細かな評価に向けられるという評価を超えることが必要である。
しかし、このようなきめ細かい評価は、データボトルネックに悩まされる。人間のゴールドスタンダードラベルはこの規模ではコストがかかりすぎ、自動化された評価は人間の判断と不一致することが多い。
この課題を解決するために,手頃なオートラッターデータと限定された人間のゴールドスタンダードラベルをマージするテンソル因子化に基づく新しい統計モデルを提案する。
具体的には、オートラッタースコアを用いてプロンプトと生成モデルの潜在表現を事前学習し、その事前学習された表現を小さな校正セットを用いて人間の嗜好に合わせる。
このサンプル効率の高い手法は、品質を自動評価するのに堅牢であり、標準基準よりもプロンプト毎の人間の嗜好をより正確に予測し、重要な統計パラメーターに対する厳密な信頼区間を提供する。
また,本手法の実用性として,素早い品質に基づくグラニュラーリーダーボードの構築と,オートラッタースコアのみからモデル性能を推定し,追加の人的アノテーションの必要性を排除した。
関連論文リスト
- Towards Anytime-Valid Statistical Watermarking [63.02116925616554]
我々は、任意の時間価推論で最適なサンプリングを統一する、最初のe-value-based watermarking frameworkであるAnchored E-Watermarkingを開発した。
本フレームワークはサンプル効率を大幅に向上させ,最先端のベースラインに対して,検出に必要な平均トークン予算を13~15%削減する。
論文 参考訳(メタデータ) (2026-02-19T18:32:26Z) - Fault-Tolerant Evaluation for Sample-Efficient Model Performance Estimators [13.227055178509524]
本稿では, バイアスと分散を考慮した耐障害性評価フレームワークを提案する。
我々は、$varepsilon$の適切なキャリブレーションにより、異なる分散状態の信頼性が保証されることを示す。
実世界のデータセットの実験は、我々のフレームワークが推定器の振る舞いに関する包括的で実行可能な洞察を提供することを示した。
論文 参考訳(メタデータ) (2026-02-06T22:14:46Z) - Scales++: Compute Efficient Evaluation Subset Selection with Cognitive Scales Embeddings [23.9553588103042]
本稿では,タスク項目自体の本質的な特性に基づいて選択を行うことを論じ,サブセット選択をベンチマークする項目中心のアプローチを提案する。
Scales++は、競争力のある予測忠実性を達成しながら、事前選択コストを18倍以上削減します。
この項目中心のアプローチは,忠実度を著しく低下させることなく,より効率的なモデル評価を可能にすることを実証する。
論文 参考訳(メタデータ) (2025-10-30T11:28:58Z) - Beyond Model Ranking: Predictability-Aligned Evaluation for Time Series Forecasting [18.018179328110048]
スペクトルコヒーレンスに基づく予測可能性整合診断フレームワークを提案する。
予測可能性ドリフト(predictability drift, 予測可能性ドリフト)の最初の体系的な証拠として, タスクの予測困難度が時間とともに急激に変化することを示す。
複雑なモデルは予測可能性の低いデータより優れているのに対し、線形モデルは予測可能なタスクに非常に効果的である。
論文 参考訳(メタデータ) (2025-09-27T02:56:06Z) - TRUST: Test-time Resource Utilization for Superior Trustworthiness [15.031121920821109]
このようなノイズの影響を考慮し,より信頼性の高い信頼度推定を行う新しいテスト時間最適化法を提案する。
このスコアは単調なサブセット選択関数を定義し、低いスコアを持つサンプルを除去すると、集団の精度は一貫して上昇する。
論文 参考訳(メタデータ) (2025-06-06T12:52:32Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - Scalable Valuation of Human Feedback through Provably Robust Model Alignment [18.151660339831718]
頑健なアライメント目的は、厳密なラベルノイズの下でも同一のモデルパラメータを生成するべきである。
証明可能な再帰特性を持つ最初の原理的アライメント損失であるH"older-DPOを提案する。
このメトリクスはグラデーションフリーで、スケーラブルで自動化された人間のフィードバックの評価を可能にする。
論文 参考訳(メタデータ) (2025-05-23T13:12:37Z) - Regression for the Mean: Auto-Evaluation and Inference with Few Labels through Post-hoc Regression [4.813376208491175]
Prediction Powered Inference (PPI)フレームワークは、大量の擬似ラベル付きデータと、実際の高品質なラベルを持つ小さなサンプルの両方を活用する方法を提供する。
ラベル付きデータが不足すると、PPI++メソッドは古典的推論よりもさらにパフォーマンスが良くなる。
本稿では, 頑健な回帰器を用いたPPIに基づく2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-19T17:17:46Z) - Self-Guided Generation of Minority Samples Using Diffusion Models [57.319845580050924]
データ多様体の低密度領域に居住する少数サンプルを生成するための新しい手法を提案する。
我々のフレームワークは拡散モデルに基づいて構築されており、ガイドドサンプリングの原理を生かしている。
実データセットのベンチマーク実験により、我々のアプローチは現実的な低自由度マイノリティインスタンスを作成する能力を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-07-16T10:03:29Z) - Weak Supervision Performance Evaluation via Partial Identification [46.73061437177238]
Programmatic Weak Supervision (PWS) は、地上の真理ラベルに直接アクセスすることなく、教師付きモデルトレーニングを可能にする。
本稿では,モデル評価を部分的同定問題としてフレーミングすることで,この問題に対処する新しい手法を提案する。
提案手法は,従来の弱監督評価手法において,ラベル付きデータを必要とせず,重要な指標に信頼性のあるバウンダリを導出する。
論文 参考訳(メタデータ) (2023-12-07T07:15:11Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Variational Classification [51.2541371924591]
我々は,変分オートエンコーダの訓練に用いるエビデンスローバウンド(ELBO)に類似した,モデルの訓練を目的とした変分目的を導出する。
軟質マックス層への入力を潜伏変数のサンプルとして扱うことで, 抽象化された視点から, 潜在的な矛盾が明らかとなった。
我々は、標準ソフトマックス層に見られる暗黙の仮定の代わりに、選択された潜在分布を誘導する。
論文 参考訳(メタデータ) (2023-05-17T17:47:19Z) - SUMO: Unbiased Estimation of Log Marginal Probability for Latent
Variable Models [80.22609163316459]
無限級数のランダム化トランケーションに基づく潜在変数モデルに対して、ログ境界確率の非バイアス推定器とその勾配を導入する。
推定器を用いてトレーニングしたモデルは、同じ平均計算コストに対して、標準的な重要度サンプリングに基づくアプローチよりも優れたテストセット確率を与えることを示す。
論文 参考訳(メタデータ) (2020-04-01T11:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。