論文の概要: Vygotsky Distance: Measure for Benchmark Task Similarity
- arxiv url: http://arxiv.org/abs/2402.14890v2
- Date: Mon, 26 Feb 2024 12:09:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 18:20:59.859806
- Title: Vygotsky Distance: Measure for Benchmark Task Similarity
- Title(参考訳): Vygotsky距離:ベンチマークタスクの類似性の測定
- Authors: Maxim K. Surkov and Ivan P. Yamshchikov
- Abstract要約: 本稿では,ベンチマークタスク間の類似性を計算するための理論的手法と実用的なアルゴリズムを提案する。
この類似度尺度の中核的な考え方は、タスク自体の特性ではなく、与えられたタスク上の「学生」の相対的なパフォーマンスに基づいていることである。
- 参考スコア(独自算出の注目度): 8.901863430257098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluation plays a significant role in modern natural language processing.
Most modern NLP benchmarks consist of arbitrary sets of tasks that neither
guarantee any generalization potential for the model once applied outside the
test set nor try to minimize the resource consumption needed for model
evaluation. This paper presents a theoretical instrument and a practical
algorithm to calculate similarity between benchmark tasks, we call this
similarity measure "Vygotsky distance". The core idea of this similarity
measure is that it is based on relative performance of the "students" on a
given task, rather that on the properties of the task itself. If two tasks are
close to each other in terms of Vygotsky distance the models tend to have
similar relative performance on them. Thus knowing Vygotsky distance between
tasks one can significantly reduce the number of evaluation tasks while
maintaining a high validation quality. Experiments on various benchmarks,
including GLUE, SuperGLUE, CLUE, and RussianSuperGLUE, demonstrate that a vast
majority of NLP benchmarks could be at least 40% smaller in terms of the tasks
included. Most importantly, Vygotsky distance could also be used for the
validation of new tasks thus increasing the generalization potential of the
future NLP models.
- Abstract(参考訳): 評価は現代自然言語処理において重要な役割を果たす。
現代のNLPベンチマークは、テストセット外に適用されたモデルに対する一般化ポテンシャルを保証せず、モデル評価に必要なリソース消費を最小化しようとする任意のタスクセットで構成されている。
本稿では,この類似度尺度をヴィゴツキー距離と呼ぶ,ベンチマークタスク間の類似度を計算するための理論的手法と実用的なアルゴリズムを提案する。
この類似性尺度の核となる考え方は、与えられたタスク上の「学生」の相対的なパフォーマンスに基づいており、タスク自体の性質に基づいていることである。
2つのタスクがビゴツキー距離の点で互いに近い場合、モデルに類似した相対的性能を持つ傾向にある。
したがって、タスク間のVygotsky距離を知ることで、高い検証品質を維持しながら、評価タスクの数を著しく削減することができる。
glue, superglue, clue, russian superglueなど,さまざまなベンチマーク実験では,nlpベンチマークの大部分が含まれているタスクに関して,少なくとも40%小さくなる可能性があることが示されている。
最も重要なことに、ヴィゴツキー距離は新たなタスクの検証にも利用でき、将来のNLPモデルの一般化可能性を高めることができる。
関連論文リスト
- HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly [34.205934899868346]
HELMETは7つの多様なアプリケーション中心のカテゴリを包含する総合ベンチマークである。
NIAHのような合成タスクは、下流のパフォーマンスの予測に適していないことが分かりました。
ほとんどのLCLMは完全なNIAHスコアを達成しているが、タスクがフルコンテキスト推論を必要とする場合、オープンソースモデルはクローズドなスコアよりも大幅に遅れている。
論文 参考訳(メタデータ) (2024-10-03T17:20:11Z) - MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。
MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - Evaluating the Evaluators: Are Current Few-Shot Learning Benchmarks Fit
for Purpose? [11.451691772914055]
本稿では,タスクレベル評価に関する最初の研究について述べる。
数ショット設定における性能推定器の精度を測定した。
評価者の失敗の理由を, 多くの場合, 頑健であると考えられる理由について検討する。
論文 参考訳(メタデータ) (2023-07-06T02:31:38Z) - Divergence-Based Domain Transferability for Zero-Shot Classification [78.55044112903148]
事前訓練されたニューラルネットワークモデルから学習パターンを転送することで、さまざまな言語ベースのタスクにおける効果が大幅に向上することが示されている。
中間タスクが目的タスクと十分に関係している場合、中間タスクのさらなるチューニングにより、さらなるパフォーマンス上のメリットが示される。
しかし、関連するタスクの特定方法はオープンな問題であり、効果的なタスクの組み合わせをブルートフォースで探すのは非常に高価である。
論文 参考訳(メタデータ) (2023-02-11T16:04:38Z) - "It's a Match!" -- A Benchmark of Task Affinity Scores for Joint
Learning [74.14961250042629]
MTL(Multi-Task Learning)は、その成功の条件を特徴づけることが、ディープラーニングにおいて依然としてオープンな問題である、と約束する。
共同学習におけるタスク親和性の推定は重要な取り組みである。
最近の研究は、訓練条件自体がMTLの結果に重大な影響を与えることを示唆している。
しかし,本研究では,タスク親和性評価手法の有効性を評価するためのベンチマークが欠落している。
論文 参考訳(メタデータ) (2023-01-07T15:16:35Z) - Composite Learning for Robust and Effective Dense Predictions [81.2055761433725]
マルチタスク学習は、目標タスクを補助タスクと協調的に最適化することで、より優れたモデル一般化を約束する。
自己監督型(補助的)タスクと密接な予測(目標)タスクを共同でトレーニングすることで、目標タスクの性能を継続的に向上し、補助タスクのラベル付けの必要性を排除できることが判明した。
論文 参考訳(メタデータ) (2022-10-13T17:59:16Z) - MuLD: The Multitask Long Document Benchmark [4.835289158553091]
我々は1万以上のトークンからなる文書のみからなる新しい長期文書ベンチマークを示す。
文脈長の増大したモデルでは,課題の解決がより容易であることを示す。
論文 参考訳(メタデータ) (2022-02-15T12:42:55Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z) - Towards GAN Benchmarks Which Require Generalization [48.075521136623564]
関数を推定するにはモデルからの大きなサンプルが必要であると我々は主張する。
我々は、分布を区別するために訓練されたニューラルネットワークの用語で定義されるニューラルネットワーク分散(NND)に目を向ける。
結果として得られたベンチマークは、トレーニングセットの記憶によって"ウォン"することはできないが、それでも知覚的に相関があり、サンプルからのみ計算可能である。
論文 参考訳(メタデータ) (2020-01-10T20:18:47Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。