論文の概要: BenTo: Benchmark Task Reduction with In-Context Transferability
- arxiv url: http://arxiv.org/abs/2410.13804v2
- Date: Fri, 18 Oct 2024 03:15:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 10:25:36.929831
- Title: BenTo: Benchmark Task Reduction with In-Context Transferability
- Title(参考訳): BenTo: In-Context Transferabilityによるベンチマークタスクの削減
- Authors: Hongyu Zhao, Ming Li, Lichao Sun, Tianyi Zhou,
- Abstract要約: 本稿では,大規模言語モデル(LLM)のベンチマークに使用するタスクを効率的に削減する方法を検討する。
In-context Learning (ICL) による2つのタスク間の伝達可能性を推定する実用的な指標を提案する。
- 参考スコア(独自算出の注目度): 32.561978389905434
- License:
- Abstract: Evaluating large language models (LLMs) is costly: it requires the generation and examination of LLM outputs on a large-scale benchmark of various tasks. This paper investigates how to efficiently reduce the tasks used to benchmark LLMs without affecting the evaluation quality. Our study reveals that task transferability and relevance provide critical information to identify the most representative subset of tasks via optimizing a facility location function. We propose a practically efficient metric for estimating the transferability between two tasks via in-context learning (ICL). By analyzing the pairwise transferability, we can reduce tasks in a modern LLM benchmark (e.g., MMLU or FLAN) to 5% while inducing only a <4% difference to the evaluation on the original benchmark. Compared to prior works, our method is training-free, gradient-free, and highly efficient requiring ICL only.
- Abstract(参考訳): 大規模言語モデル(LLM)の評価には、様々なタスクの大規模ベンチマークでLLM出力の生成と検証が必要である。
本稿では,LCMのベンチマークに使用するタスクを,評価品質に影響を与えることなく効率的に削減する方法を検討する。
本研究により,タスク伝達可能性と関連性は,施設位置関数を最適化することにより,タスクの最も代表的なサブセットを識別するための重要な情報を提供することが明らかとなった。
In-context Learning (ICL) を用いて, 2つのタスク間の伝達可能性を推定する実用的な指標を提案する。
LLMベンチマーク(例えばMMLUやFLAN)のタスクを5%に削減できるが、元のベンチマークでは4%の差しか生じない。
従来の手法と比較して,本手法はトレーニングフリー,勾配フリー,高効率なICLのみを必要とする。
関連論文リスト
- Instruction Tuning Vs. In-Context Learning: Revisiting Large Language Models in Few-Shot Computational Social Science [0.1499944454332829]
In-context Learning (ICL) とインストラクションチューニング (IT) を用いた大規模言語モデル (LLM) の分類性能の評価を行った。
ICLは、明示的な勾配更新なしで例から学ぶことで、タスク適応の迅速な代替手段を提供する。
私たちの研究は、CSSタスクを数ショットで処理する上で、ICLの重大な利点を強調しています。
論文 参考訳(メタデータ) (2024-09-23T02:43:08Z) - Active Testing of Large Language Model via Multi-Stage Sampling [17.89896012553348]
AcTracerは,大規模言語モデル(LLM)に適した,アクティブなテストフレームワークである。
ほぼ最適な性能推定を達成するために、戦略的にテストデータの小さなサブセットを選択する。
実験の結果,AcTracerは既存手法と比較して最先端の性能を達成できた。
論文 参考訳(メタデータ) (2024-08-07T06:17:48Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Benchmarking Causal Study to Interpret Large Language Models for Source
Code [6.301373791541809]
本稿では,3つのSEタスクをキュレートしたテストベッドからなるGalerasというベンチマーク戦略を紹介する。
本稿では,ChatGPTの性能に関するケーススタディを,個別の迅速なエンジニアリング手法で実施することで,ベンチマーク戦略の知見を述べる。
論文 参考訳(メタデータ) (2023-08-23T20:32:12Z) - Estimating Large Language Model Capabilities without Labeled Test Data [51.428562302037534]
大規模言語モデル(LLM)は、ほんの数例からICL(In-context Learning)を実行するという印象的な能力を持っている。
ICLの精度推定タスクを提案し、新しいタスクで文脈内学習を行う場合のLLMの精度を予測する。
論文 参考訳(メタデータ) (2023-05-24T06:55:09Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。