Fugu-MT 論文翻訳(概要): On Speeding Up Language Model Evaluation

論文の概要: On Speeding Up Language Model Evaluation

arxiv url: http://arxiv.org/abs/2407.06172v2
Date: Wed, 14 Aug 2024 22:31:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-16 18:07:06.422411
Title: On Speeding Up Language Model Evaluation
Title（参考訳）: 言語モデル評価の高速化について
Authors: Jin Peng Zhou, Christian K. Belardi, Ruihan Wu, Travis Zhang, Carla P. Gomes, Wen Sun, Kilian Q. Weinberger,
Abstract要約: LLM(Large Language Models)を用いたプロンプトベースの手法の開発には、多くの意思決定が必要である。この課題に対処するための新しい手法を提案する。典型的に必要とされるリソースの5～15%しか必要とせず,トップパフォーマンスの手法を識別できることが示される。
参考スコア（独自算出の注目度）: 48.51924035873411
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Developing prompt-based methods with Large Language Models (LLMs) requires making numerous decisions, which give rise to a combinatorial search problem. For example, selecting the right pre-trained LLM, prompt, and hyperparameters to attain the best performance for a task typically necessitates evaluating an expoential number of candidates on large validation sets. This exhaustive evaluation can be time-consuming and costly, as both inference and evaluation of LLM-based approaches are resource-intensive. Worse, a lot of computation is wasted: Many hyper-parameter settings are non-competitive, and many samples from the validation set are highly correlated - providing little or no new information. So, if the goal is to identify the best method, it can be done far more efficiently if the validation samples and methods are selected adaptively. In this paper, we propose a novel method to address this challenge. We lean on low-rank matrix factorization to fill in missing evaluations and on multi-armed bandits to sequentially identify the next (method, validation sample)-pair to evaluate. We carefully assess the efficacy of our approach on several competitive benchmark problems and show that it can identify the top-performing method using only 5-15% of the typically needed resources -- resulting in a staggering 85-95% LLM cost savings.
Abstract（参考訳）: LLM(Large Language Models)を用いたプロンプトベースの手法の開発には,多数の意思決定が必要である。例えば、タスクの最高のパフォーマンスを達成するためには、適切な事前訓練されたLLM、プロンプト、ハイパーパラメータを選択する必要がある。 LLMに基づく手法の推測と評価の両方が資源集約的であるため、この徹底的な評価は時間と費用がかかる可能性がある。さらに悪いことに、多くの計算が無駄になっている: 多くのハイパーパラメータ設定は非競合的であり、検証セットからの多くのサンプルは高い相関関係にあり、新しい情報はほとんど、あるいは全く提供されない。したがって、最適なメソッドを特定することが目的ならば、検証サンプルとメソッドが適応的に選択された場合、はるかに効率的に行うことができる。本稿では,この課題に対処するための新しい手法を提案する。我々は,欠落した評価を補うために,低ランク行列の分解に頼り,また,次の(メソッド,検証サンプル)ペアを逐次同定するために,マルチアームのバンディットに頼っている。我々は、いくつかの競合するベンチマーク問題に対するアプローチの有効性を慎重に評価し、典型的なリソースの5～15%しか必要とせず、最高のパフォーマンスの手法を識別できることを示し、その結果、85～95%のLCMコスト削減が停滞する結果となった。

関連論文リスト

Reliable and Efficient Amortized Model-based Evaluation [57.6469531082784]
幅広いベンチマークの平均スコアは、実際に言語モデルを使用することをガイドするシグナルを提供する。コストを下げるための一般的な試みは、ベンチマークのサブセットの平均スコアを計算することである。このアプローチは、平均スコアがベンチマークサブセットの質問の難しさと合わさったため、信頼性の低いLM性能をしばしば引き起こす。我々は、その内容から質問難度を予測するモデルを訓練し、信頼性のある測定をコストのごく一部で行えるようにした。
論文参考訳（メタデータ） (2025-03-17T16:15:02Z)
Self-Training Elicits Concise Reasoning in Large Language Models [23.475414693530965]
チェーン・オブ・シント(CoT)推論により、中間トークンによるさらなる計算を大規模言語モデル(LLM)が利用できるようになった。自己生成した簡潔な推論経路を利用する簡単な微調整法を提案する。提案手法は,GSM8KおよびMATH上の5つのモデルファミリに対して,平均精度を維持しつつ,出力トークンの30%削減を実現する。
論文参考訳（メタデータ） (2025-02-27T14:14:50Z)
Words Matter: Leveraging Individual Text Embeddings for Code Generation in CLIP Test-Time Adaptation [21.20806568508201]
テスト時推論において視覚言語モデル(VLM)が遭遇する分布ドリフトを軽減するために,クラステキスト情報を活用する方法を示す。本稿では,ラベル割り当て問題の固定セントロイドとしてジェネリッククラステキスト埋め込みを利用して,テスト時間サンプルの擬似ラベルを生成することを提案する。多様な複雑性を示す複数の人気のあるテスト時間適応ベンチマークの実験は、CLIP-OTの優位性を実証的に示している。
論文参考訳（メタデータ） (2024-11-26T00:15:37Z)
Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文参考訳（メタデータ） (2024-11-07T10:31:31Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文参考訳（メタデータ） (2024-10-04T04:03:24Z)
Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo [55.452453947359736]
Twisted Sequential Monte Carlo(TSMC)に基づく新しい検証手法を提案する。 TSMCを大規模言語モデルに適用し、部分解に対する将来的な報酬を推定する。このアプローチは、ステップワイドなヒューマンアノテーションを必要としない、より直接的なトレーニングターゲットをもたらす。
論文参考訳（メタデータ） (2024-10-02T18:17:54Z)
Leveraging LLMs for Dialogue Quality Measurement [27.046917937460798]
大規模言語モデル(LLM)は、NLPタスク全体で堅牢なゼロショットと少数ショットの機能を提供する。モデルサイズ,文脈内例,選択手法などの操作要因を考察し,CoT推論とラベル抽出手法について検討する。この結果から,適切な微調整と十分な推論能力を有するLCMを自動対話評価に活用できることが示唆された。
論文参考訳（メタデータ） (2024-06-25T06:19:47Z)
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文参考訳（メタデータ） (2024-06-21T20:06:31Z)
Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文参考訳（メタデータ） (2024-05-25T08:23:05Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)
Investigating Data Contamination in Modern Benchmarks for Large Language Models [27.479260572913724]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文参考訳（メタデータ） (2023-11-16T11:03:04Z)
Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文参考訳（メタデータ） (2023-05-01T02:37:59Z)
Batch Active Learning at Scale [39.26441165274027]
バッチクエリをラベル付けオラクルに適応的に発行するバッチアクティブラーニングは、この問題に対処するための一般的なアプローチである。本研究では,大規模なバッチ設定に着目した効率的な能動学習アルゴリズムを解析する。本研究では,不確実性と多様性の概念を組み合わせたサンプリング手法について,従来より数桁大きなバッチサイズ(100K-1M)に容易にスケール可能であることを示す。
論文参考訳（メタデータ） (2021-07-29T18:14:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。