論文の概要: Instance-level Performance Prediction for Long-form Generation Tasks
- arxiv url: http://arxiv.org/abs/2509.07309v1
- Date: Tue, 09 Sep 2025 00:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.157923
- Title: Instance-level Performance Prediction for Long-form Generation Tasks
- Title(参考訳): 長文生成タスクのインスタンスレベルの性能予測
- Authors: Chi-Yang Hsu, Alexander Braylan, Yiheng Su, Omar Alonso, Matthew Lease,
- Abstract要約: 我々は、細かな品質指標を持つ長文生成タスクのインスタンスレベルのパフォーマンス予測のための新しいベンチマークをモチベーションし、共有する。
ブラックボックスモデル入力と出力のみを対象とし,タスク,モデル,およびメートル法に依存しない定式化により,連続的な評価基準値が予測される。
- 参考スコア(独自算出の注目度): 47.21442052294225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We motivate and share a new benchmark for instance-level performance prediction of long-form generation tasks having multi-faceted, fine-grained quality metrics. Our task-, model- and metric-agnostic formulation predicts continuous evaluation metric scores given only black-box model inputs and outputs. Beyond predicting point estimates of metric scores, the benchmark also requires inferring prediction intervals to quantify uncertainty around point estimates. Evaluation spans 11 long-form datasets/tasks with multiple LLMs, baselines, and metrics per task. We show that scores can be effectively predicted across long-form generation tasks using as few as 16 training examples. Overall, we introduce a novel and useful task, a valuable benchmark to drive progress, and baselines ready for practical adoption today.
- Abstract(参考訳): 我々は、多面的、きめ細かい品質指標を持つ長文生成タスクのインスタンスレベルのパフォーマンス予測のための新しいベンチマークをモチベーションし、共有する。
ブラックボックスモデル入力と出力のみを対象とし,タスク,モデル,およびメートル法に依存しない定式化により,連続的な評価基準値が予測される。
このベンチマークでは、測定値の点推定以外にも、点推定に関する不確実性を定量化するために、予測間隔を推測する必要がある。
評価は、タスク毎に複数のLLM、ベースライン、メトリクスを備えた11の長文データセット/タスクにまたがる。
その結果,16の学習例を用いて,長文生成タスクのスコアを効果的に予測できることが示唆された。
全体的には、新規で有用なタスク、進捗を駆動する貴重なベンチマーク、そして今日の実践的な採用に向けてのベースラインを導入します。
関連論文リスト
- TimeRecipe: A Time-Series Forecasting Recipe via Benchmarking Module Level Effectiveness [23.143208640116253]
TimeRecipeはモジュールレベルで時系列予測メソッドを体系的に評価するフレームワークである。
TimeRecipeは、個々のコンポーネントの有効性を評価するために、1万以上の実験を行います。
以上の結果から,設計空間の徹底的な探索により,既存の最先端手法よりも優れたモデルが得られることがわかった。
論文 参考訳(メタデータ) (2025-06-06T19:11:48Z) - Statistical Uncertainty Quantification for Aggregate Performance Metrics in Machine Learning Benchmarks [0.0]
複数のタスクにまたがって集約されたメトリクスの不確かさを定量化するために,統計的手法がいかに用いられるかを示す。
これらの技術は、全体的なパフォーマンスが劣っているにもかかわらず、特定のタスクに対する特定のモデルの優位性のような洞察を浮き彫りにする。
論文 参考訳(メタデータ) (2025-01-08T02:17:34Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - GIFT-Eval: A Benchmark For General Time Series Forecasting Model Evaluation [90.53485251837235]
時系列基礎モデルはゼロショット予測に優れ、明示的なトレーニングなしで多様なタスクを処理する。
GIFT-Evalは、多様なデータセットに対する評価を促進するための先駆的なベンチマークである。
GIFT-Evalには、144,000の時系列と17700万のデータポイントの23のデータセットが含まれている。
論文 参考訳(メタデータ) (2024-10-14T11:29:38Z) - HoTPP Benchmark: Are We Good at the Long Horizon Events Forecasting? [1.3654846342364308]
長軸予測を厳格に評価するために設計された最初のベンチマークである HoTPP を紹介する。
我々は,広く使用されている評価指標の欠点を特定し,理論的に基礎付けられたT-mAP尺度を提案し,人気モデルの効率的な実装を提供する。
我々は,自己回帰と強度に基づく損失が予測品質に与える影響を分析し,今後の研究に向けた有望な方向性を概説する。
論文 参考訳(メタデータ) (2024-06-20T14:09:00Z) - PromptCast: A New Prompt-based Learning Paradigm for Time Series
Forecasting [11.670324826998968]
既存の時系列予測手法では,数値列を入力とし,数値列を出力とする。
事前学習された言語基盤モデルの成功に触発されて、我々は新しい予測パラダイム、即時時系列予測を提案する。
この新たなタスクでは、数値入力と出力をプロンプトに変換し、予測タスクを文対文でフレーム化する。
論文 参考訳(メタデータ) (2022-09-20T10:15:35Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Few-shot Learning for Time-series Forecasting [40.58524521473793]
そこで本研究では,対象タスクにおける時系列の今後の価値を予測できる数ショット学習手法を提案する。
本モデルは,対象タスクとは異なる複数のトレーニングタスクにおいて時系列データを用いて訓練される。
論文 参考訳(メタデータ) (2020-09-30T01:32:22Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。