論文の概要: Drawing Causal Inferences About Performance Effects in NLP
- arxiv url: http://arxiv.org/abs/2209.06790v1
- Date: Wed, 14 Sep 2022 17:18:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 13:19:13.494858
- Title: Drawing Causal Inferences About Performance Effects in NLP
- Title(参考訳): nlpにおけるパフォーマンス効果に関する因果推論
- Authors: Sandra Wankm\"uller
- Abstract要約: 本稿は,NLPが自然言語処理に1つの方法(他の手法と比較)を適用することによって生じる性能効果について,科学としてのNLPが推論しようとすることを強調する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This article emphasizes that NLP as a science seeks to make inferences about
the performance effects that result from applying one method (compared to
another method) in the processing of natural language. Yet NLP research in
practice usually does not achieve this goal: In NLP research articles,
typically only a few models are compared. Each model results from a specific
procedural pipeline (here named processing system) that is composed of a
specific collection of methods that are used in preprocessing, pretraining,
hyperparameter tuning, and training on the target task. To make generalizing
inferences about the performance effect that is caused by applying some method
A vs. another method B, it is not sufficient to compare a few specific models
that are produced by a few specific (probably incomparable) processing systems.
Rather, the following procedure would allow drawing inferences about methods'
performance effects: (1) A population of processing systems that researchers
seek to infer to has to be defined. (2) A random sample of processing systems
from this population is drawn. (The drawn processing systems in the sample will
vary with regard to the methods they apply along their procedural pipelines and
also will vary regarding the compositions of their training and test data sets
used for training and evaluation.) (3) Each processing system is applied once
with method A and once with method B. (4) Based on the sample of applied
processing systems, the expected generalization errors of method A and method B
are approximated. (5) The difference between the expected generalization errors
of method A and method B is the estimated average treatment effect due to
applying method A compared to method B in the population of processing systems.
- Abstract(参考訳): 本稿は,NLPが自然言語処理に1つの方法(他の手法と比較)を適用することによって生じる性能効果について,科学としてのNLPが推論することを強調する。
しかし、NLP研究は通常、この目標を達成できない: NLP研究論文では、通常、少数のモデルしか比較されない。
各モデルは、前処理、事前トレーニング、ハイパーパラメータチューニング、ターゲットタスクのトレーニングに使用される特定のメソッドの集合からなる、特定の手続きパイプライン(以下、処理システムと名づける)から生じる。
あるメソッドAと他のメソッドBを適用して生じる性能効果に関する推論を一般化するには、いくつかの特定の(おそらくは非互換な)処理システムによって生成されるいくつかの特定のモデルを比較するだけでは不十分である。
むしろ、以下の手順では、手法のパフォーマンス効果に関する推論が可能である: (1) 研究者が推論する処理システムの集団を定義する必要がある。
2) この集団からのランダムな処理システムのサンプルを抽出する。
(サンプル内の描画処理系は、手続き的パイプラインに沿って適用される方法によって異なり、また、トレーニングや評価に使用されるトレーニングデータセットやテストデータセットの構成も異なる。)(3)各処理系は、メソッドAで1回、メソッドBで1回適用される。(4)適用された処理系のサンプルに基づいて、メソッドAとメソッドBの予測一般化誤差を近似する。
(5) 法Aと法Bの予測一般化誤差の違いは, 処理系の集団における方法Bと比較して, 法Aの適用による平均処理効果を推定するものである。
関連論文リスト
- Scalable Influence and Fact Tracing for Large Language Model Pretraining [14.598556308631018]
トレーニングデータ属性(TDA)メソッドは、特定のトレーニング例にモデル出力を振り返ることを目的としている。
本稿では,既存の勾配法を改良し,大規模に効果的に機能させる。
論文 参考訳(メタデータ) (2024-10-22T20:39:21Z) - Multi-Output Distributional Fairness via Post-Processing [47.94071156898198]
本稿では,タスクに依存しない公平度尺度である分散パリティを高めるために,マルチ出力モデルに対する後処理手法を提案する。
提案手法では, モデル出力を実験的なワッサーシュタインバリセンタへ移動させるため, 最適トランスポートマッピングを用いる。
論文 参考訳(メタデータ) (2024-08-31T22:41:26Z) - Training Data Attribution via Approximate Unrolled Differentiation [8.87519936904341]
影響関数のような暗黙の微分に基づく手法は、計算的に効率的になるが、過小評価を考慮できない。
我々は、影響関数のような公式を用いて計算される近似アンローリングベースのTDA手法であるSourceを紹介する。
論文 参考訳(メタデータ) (2024-05-20T17:17:44Z) - FRAPPE: A Group Fairness Framework for Post-Processing Everything [48.57876348370417]
本稿では,任意の正規化インプロセッシング手法をポストプロセッシング手法に変換するフレームワークを提案する。
理論的および実験を通して、我々のフレームワークは、内部処理で達成された優れた公正なエラートレードオフを保っていることを示す。
論文 参考訳(メタデータ) (2023-12-05T09:09:21Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - An Empirical Comparison of Instance Attribution Methods for NLP [62.63504976810927]
本研究は,トレーニングサンプルの重要性に関して,異なるインスタンス属性が一致した度合いを評価する。
単純な検索メソッドは、グラデーションベースの方法によって識別されたものと異なるトレーニングインスタンスを生成する。
論文 参考訳(メタデータ) (2021-04-09T01:03:17Z) - Does imputation matter? Benchmark for predictive models [5.802346990263708]
本稿では,予測モデルに対するデータ計算アルゴリズムの実証的効果を体系的に評価する。
主な貢献は,(1)実生活の分類タスクに基づく経験的ベンチマークのための一般的な手法の推薦である。
論文 参考訳(メタデータ) (2020-07-06T15:47:36Z) - Learning the Truth From Only One Side of the Story [58.65439277460011]
一般化線形モデルに焦点をあて、このサンプリングバイアスを調整しなければ、モデルは準最適に収束するか、あるいは最適解に収束しないかもしれないことを示す。
理論的保証を伴って適応的なアプローチを提案し、いくつかの既存手法を実証的に上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-08T18:20:28Z) - Adversarial System Variant Approximation to Quantify Process Model
Generalization [2.538209532048867]
プロセスマイニングでは、プロセスモデルはイベントログから抽出され、複数の品質次元を用いて一般的に評価される。
この問題を解決するために,Adversarial System Variant Approximation (AVATAR)と呼ばれる新しいディープラーニングベースの手法が提案されている。
論文 参考訳(メタデータ) (2020-03-26T22:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。