論文の概要: The Speed-up Factor: A Quantitative Multi-Iteration Active Learning Performance Metric
- arxiv url: http://arxiv.org/abs/2602.13359v1
- Date: Fri, 13 Feb 2026 10:33:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:27.943333
- Title: The Speed-up Factor: A Quantitative Multi-Iteration Active Learning Performance Metric
- Title(参考訳): スピードアップ要因: 定量的マルチイテレーション能動的学習性能指標
- Authors: Hannes Kath, Thiago S. Gouvêa, Daniel Sonntag,
- Abstract要約: 機械学習モデルは豊富な注釈付きデータで優れているが、アノテーションは高価で時間を要することが多い。
アクティブラーニングは、クエリ手法(QM)を用いて、最も情報性の高いサンプルを反復的に選択することで、パフォーマンスとアノテーションの比率を改善することを目的としている。
本研究は, ランダムサンプリング性能に適合するサンプルの分数を示す量的マルチイテレーションQM性能指標である, 高速化係数を導入する。
- 参考スコア(独自算出の注目度): 8.014708559408078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning models excel with abundant annotated data, but annotation is often costly and time-intensive. Active learning (AL) aims to improve the performance-to-annotation ratio by using query methods (QMs) to iteratively select the most informative samples. While AL research focuses mainly on QM development, the evaluation of this iterative process lacks appropriate performance metrics. This work reviews eight years of AL evaluation literature and formally introduces the speed-up factor, a quantitative multi-iteration QM performance metric that indicates the fraction of samples needed to match random sampling performance. Using four datasets from diverse domains and seven QMs of various types, we empirically evaluate the speed-up factor and compare it with state-of-the-art AL performance metrics. The results confirm the assumptions underlying the speed-up factor, demonstrate its accuracy in capturing the described fraction, and reveal its superior stability across iterations.
- Abstract(参考訳): 機械学習モデルは豊富な注釈付きデータで優れているが、アノテーションは高価で時間を要することが多い。
アクティブラーニング(AL)は、クエリ手法(QM)を用いて、最も有用なサンプルを反復的に選択することで、パフォーマンスとアノテーションの比率を改善することを目的としている。
ALリサーチは主にQM開発に焦点を当てているが、この反復的プロセスの評価には適切なパフォーマンス指標が欠けている。
本研究は,8年間のAL評価文献をレビューし,ランダムサンプリング性能に適合するサンプルの分数を示す量的マルチイテレーションQMパフォーマンス指標であるスピードアップ係数を正式に紹介する。
多様なドメインの4つのデータセットと、さまざまなタイプの7つのQMを使用して、スピードアップ係数を実証的に評価し、最先端のALパフォーマンス指標と比較する。
その結果, スピードアップ係数の前提となる仮定を確認し, その精度を実証し, 繰り返しの安定性に優れることを示した。
関連論文リスト
- Fluid Language Model Benchmarking [126.92394365620525]
我々は,複数の次元にわたるLMベンチマークを進展させる新しい評価手法であるFluid Benchmarkingを紹介する。
サイコメトリックスにインスパイアされたFluid Benchmarkingは、ベンチマーク項目の相対値がLMの能力レベルに依存するという洞察に基づいている。
効率性,妥当性,分散性,飽和性の4つの次元を検証した結果,Fluid Benchmarkingがすべてにおいて優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2025-09-14T05:49:42Z) - A Statistical Analysis for Per-Instance Evaluation of Stochastic Optimizers: How Many Repeats Are Enough? [0.8575004906002217]
本稿では,共通指標の統計的分析を行い,実験設計のガイドラインを策定する。
メトリクスの所定の精度を達成するために、リピート数に対する低いバウンダリを導出します。
そこで本稿では,評価基準の精度を確保するために必要となるリピート数を適応的に調整するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-20T17:38:50Z) - Statistical Uncertainty Quantification for Aggregate Performance Metrics in Machine Learning Benchmarks [0.0]
複数のタスクにまたがって集約されたメトリクスの不確かさを定量化するために,統計的手法がいかに用いられるかを示す。
これらの技術は、全体的なパフォーマンスが劣っているにもかかわらず、特定のタスクに対する特定のモデルの優位性のような洞察を浮き彫りにする。
論文 参考訳(メタデータ) (2025-01-08T02:17:34Z) - Words Matter: Leveraging Individual Text Embeddings for Code Generation in CLIP Test-Time Adaptation [21.20806568508201]
テスト時推論において視覚言語モデル(VLM)が遭遇する分布ドリフトを軽減するために,クラステキスト情報を活用する方法を示す。
本稿では,ラベル割り当て問題の固定セントロイドとしてジェネリッククラステキスト埋め込みを利用して,テスト時間サンプルの擬似ラベルを生成することを提案する。
多様な複雑性を示す複数の人気のあるテスト時間適応ベンチマークの実験は、CLIP-OTの優位性を実証的に示している。
論文 参考訳(メタデータ) (2024-11-26T00:15:37Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Active Evaluation Acquisition for Efficient LLM Benchmarking [18.85604491151409]
学習ポリシを用いて,各ベンチマークからサンプルのサブセットを選択することにより,評価効率を向上させる戦略を検討する。
提案手法は,テスト例間の依存関係をモデル化し,残りの例に対する評価結果の正確な予測を可能にする。
実験の結果,提案手法は必要な評価プロンプトの数を大幅に削減することが示された。
論文 参考訳(メタデータ) (2024-10-08T12:08:46Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Benchmarking Answer Verification Methods for Question Answering-Based
Summarization Evaluation Metrics [74.28810048824519]
質問応答に基づく要約評価メトリクスは、QAモデルの予測が正しいかどうかを自動的に判断する必要がある。
筆者らは,現在QAベースのメトリクスで使用されている語彙的回答検証手法と,より洗練された2つのテキスト比較手法をベンチマークした。
論文 参考訳(メタデータ) (2022-04-21T15:43:45Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。