論文の概要: Training on the Test Task Confounds Evaluation and Emergence
- arxiv url: http://arxiv.org/abs/2407.07890v2
- Date: Thu, 12 Dec 2024 07:45:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:30:22.599974
- Title: Training on the Test Task Confounds Evaluation and Emergence
- Title(参考訳): テストタスク・コンファウンドの評価と創発に関する研修
- Authors: Ricardo Dominguez-Olmedo, Florian E. Dorner, Moritz Hardt,
- Abstract要約: テストタスクのトレーニングは、相対モデル評価と創発的能力に関するクレームの両方に矛盾があることを示します。
ベンチマーク評価において,テストタスクに対するトレーニングの効果を効果的に調整する手法を提案する。
- 参考スコア(独自算出の注目度): 16.32378359459614
- License:
- Abstract: We study a fundamental problem in the evaluation of large language models that we call training on the test task. Unlike wrongful practices like training on the test data, leakage, or data contamination, training on the test task is not a malpractice. Rather, the term describes a growing set of practices that utilize knowledge about evaluation tasks at training time. We demonstrate that training on the test task confounds both relative model evaluations and claims about emergent capabilities. We argue that the seeming superiority of one model family over another may be explained by a different degree of training on the test task. To this end, we propose an effective method to adjust for the effect of training on the test task on benchmark evaluations. Put simply, to fine-tune each model under comparison on the same task-relevant data before evaluation. We then show that instances of emergent behavior disappear gradually as models train on the test task. Our work promotes a new perspective on the evaluation of large language models with broad implications for benchmarking and the study of emergent capabilities
- Abstract(参考訳): 本研究では,テストタスクのトレーニングと呼ぶ大規模言語モデルの評価における根本的な問題について検討する。
テストデータのトレーニングやリーク、データ汚染といった誤ったプラクティスとは異なり、テストタスクのトレーニングは誤った実践ではありません。
むしろ、この用語は、トレーニング時に評価タスクに関する知識を活用する一連のプラクティスを記述している。
テストタスクのトレーニングは、相対モデル評価と創発的能力に関するクレームの両方に矛盾があることを実証する。
我々は、あるモデルファミリが他のモデルファミリよりも優れているように見えることは、テストタスクにおける異なるレベルのトレーニングによって説明できるかもしれないと論じる。
そこで本研究では,テストタスクがベンチマーク評価に与える影響を効果的に評価する手法を提案する。
簡単に言えば、評価の前に同じタスク関連データを比較して各モデルを微調整する。
次に、モデルがテストタスクでトレーニングすると、創発的な振る舞いのインスタンスが徐々に消えていくことを示す。
我々の研究は、ベンチマークや創発的能力の研究に幅広い影響を及ぼす大規模言語モデルの評価に関する新たな視点を促進する。
関連論文リスト
- Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes [30.30769701138665]
我々は、訓練データとテストデータの間の相互影響を浮き彫りにして、ミラーレッド影響仮説を導入し、探求する。
具体的には、テスト予測に対するトレーニングデータの影響を評価することは、等価だが逆問題として再定義することができることを示唆している。
トレーニングポイント毎に前方パスとペアを組むことで,特定のテストサンプルの勾配を計算し,トレーニングデータの影響を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T03:43:05Z) - How to Determine the Most Powerful Pre-trained Language Model without
Brute Force Fine-tuning? An Empirical Survey [23.757740341834126]
その結果,H-Scoreは効率性や効率性に優れることがわかった。
また、トレーニングの詳細、テキスト生成への適用性、今後の方向性に光を当てる特定の指標との整合性といった難しさについても概説する。
論文 参考訳(メタデータ) (2023-12-08T01:17:28Z) - Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z) - Test-Time Adaptation with Perturbation Consistency Learning [32.58879780726279]
そこで本研究では, 分布変化のあるサンプルに対して, 安定な予測を行うための簡易なテスト時間適応手法を提案する。
提案手法は,強力なPLMバックボーンよりも推論時間が少なく,高い,あるいは同等の性能を実現することができる。
論文 参考訳(メタデータ) (2023-04-25T12:29:22Z) - A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts [117.72709110877939]
テスト時間適応(TTA)は、事前訓練されたモデルをテスト中に、予測する前にラベルのないデータに適応する可能性がある。
TTAはテスト時間領域適応、テスト時間バッチ適応、オンラインテスト時間適応といったテストデータの形態に基づいて、いくつかの異なるグループに分類される。
論文 参考訳(メタデータ) (2023-03-27T16:32:21Z) - Mixup for Test-Time Training [4.913013713982677]
本稿では,モデルパラメータの変化を制御し,テストタイムの手続きを完了させるテストタイムトレーニング(MixTTT)のミックスアップを提案する。
テスト時間トレーニングにおける特定の正規化効果として,更新部と静的部のミスマッチ問題を軽減することへの寄与を理論的に示す。
論文 参考訳(メタデータ) (2022-10-04T14:37:25Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - On the Impact of Hard Adversarial Instances on Overfitting in Adversarial Training [70.82725772926949]
敵の訓練は、敵の攻撃に対してモデルを強固にするための一般的な方法である。
本研究では,この現象をトレーニングインスタンスの観点から検討する。
逆行訓練における一般化性能の低下は、ハード・逆行例に適合した結果であることを示す。
論文 参考訳(メタデータ) (2021-12-14T12:19:24Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。