論文の概要: Scaling Up Active Testing to Large Language Models
- arxiv url: http://arxiv.org/abs/2508.09093v1
- Date: Tue, 12 Aug 2025 17:17:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.521353
- Title: Scaling Up Active Testing to Large Language Models
- Title(参考訳): 大規模言語モデルへのアクティブテストのスケールアップ
- Authors: Gabrielle Berrada, Jannik Kossen, Muhammed Razzak, Freddie Bickford Smith, Yarin Gal, Tom Rainforth,
- Abstract要約: 大規模言語モデルの評価にどう対応できるかを示す。
特に,データ取得のガイドに使用されるサロゲートモデルは,テキスト内学習を用いて安価に構築可能であることを示す。
- 参考スコア(独自算出の注目度): 45.13194096236772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active testing enables label-efficient evaluation of models through careful data acquisition. However, its significant computational costs have previously undermined its use for large models. We show how it can be successfully scaled up to the evaluation of large language models (LLMs). In particular we show that the surrogate model used to guide data acquisition can be constructed cheaply using in-context learning, does not require updating within an active-testing loop, and can be smaller than the target model. We even find we can make good data-acquisition decisions without computing predictions with the target model and further introduce a single-run error estimator to asses how well active testing is working on the fly. We find that our approach is able to more effectively evaluate LLM performance with less data than current standard practices.
- Abstract(参考訳): アクティブテストは、慎重なデータ取得によるモデルの評価を可能にする。
しかし、その計算コストは以前、大きなモデルでの使用を減らした。
大規模言語モデル (LLM) の評価にどう対応できるかを示す。
特に,データ取得を誘導するために使用されるサロゲートモデルは,コンテキスト内学習を用いて安価に構築することができ,アクティブテストループ内での更新を必要とせず,ターゲットモデルよりも小さくすることができることを示す。
さらに、ターゲットモデルによる予測を計算せずに、優れたデータ取得決定を行うことができ、また、アクティブなテストがどの程度うまく動作しているかを評価するために、単一実行エラー推定器を導入しています。
我々の手法は,従来の標準手法よりも少ないデータでLLMの性能を効果的に評価できることがわかった。
関連論文リスト
- Aligning Frozen LLMs by Reinforcement Learning: An Iterative Reweight-then-Optimize Approach [65.6966065843227]
Iterative Reweight-then-IROは、凍結ベースモデルのRLスタイルアライメントを実行するフレームワークである。
テスト時には、値関数を使用して、検索ベースの最適化プロセスを介してベースモデル生成をガイドする。
特に、ユーザは、OpenAIの強化微調整(RFT)と同様、自身のデータセットにモデルをアライメントするためにIROを適用することができる。
論文 参考訳(メタデータ) (2025-06-21T21:49:02Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Language Models can Self-Improve at State-Value Estimation for Better Search [16.933525465335524]
本稿では、状態遷移ダイナミクスを利用して値モデルを改善する自己学習型ルック(STL)を提案する。
STLで学習した専門値モデルは計算量的に軽量な探索アルゴリズムで展開でき、より高価な木探索手法に匹敵する性能を実現することができる。
論文 参考訳(メタデータ) (2025-03-04T18:58:11Z) - Active Surrogate Estimators: An Active Learning Approach to
Label-Efficient Model Evaluation [59.7305309038676]
モデル評価のためのアクティブサロゲート推定器(ASE)を提案する。
ASEは現在の最先端技術よりもラベル効率が高いことが分かりました。
論文 参考訳(メタデータ) (2022-02-14T17:15:18Z) - Practical Active Learning with Model Selection for Small Data [13.128648437690224]
モデル選択を用いた実践的能動的学習のための簡易かつ高速な手法を開発した。
本手法は,ラジアル基底関数カーネルを用いたサポートベクトル分類を用いて,二元分類のためのプールベースアクティブラーナに基づく。
論文 参考訳(メタデータ) (2021-12-21T23:11:27Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Active Testing: Sample-Efficient Model Evaluation [39.200332879659456]
サンプル効率のよいモデル評価のための新しいフレームワークであるactive testingを紹介する。
アクティブテストは、ラベルにテストポイントを慎重に選択することでこれに対処する。
我々は,推定器のばらつきを低減しつつ,バイアスの除去方法を示す。
論文 参考訳(メタデータ) (2021-03-09T10:20:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。