Fugu-MT 論文翻訳(概要): The Curse of Performance Instability in Analysis Datasets: Consequences, Source, and Suggestions

論文の概要: The Curse of Performance Instability in Analysis Datasets: Consequences, Source, and Suggestions

arxiv url: http://arxiv.org/abs/2004.13606v2
Date: Mon, 16 Nov 2020 02:22:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-08 22:17:41.459898
Title: The Curse of Performance Instability in Analysis Datasets: Consequences, Source, and Suggestions
Title（参考訳）: 分析データセットにおけるパフォーマンス不安定の呪い:結果、ソース、提案
Authors: Xiang Zhou, Yixin Nie, Hao Tan, Mohit Bansal
Abstract要約: 自然言語推論(NLI)および読み込み(RC)解析/ストレスセットにおける最先端モデルの性能は極めて不安定であることがわかった。このことは、(1)不安定さがこれらの分析セットに基づいて引き出された結論の信頼性にどのように影響するかという3つの疑問を提起する。不安定の原因に関する理論的説明と実証的証拠の両方を提示する。
参考スコア（独自算出の注目度）: 93.62888099134028
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We find that the performance of state-of-the-art models on Natural Language Inference (NLI) and Reading Comprehension (RC) analysis/stress sets can be highly unstable. This raises three questions: (1) How will the instability affect the reliability of the conclusions drawn based on these analysis sets? (2) Where does this instability come from? (3) How should we handle this instability and what are some potential solutions? For the first question, we conduct a thorough empirical study over analysis sets and find that in addition to the unstable final performance, the instability exists all along the training curve. We also observe lower-than-expected correlations between the analysis validation set and standard validation set, questioning the effectiveness of the current model-selection routine. Next, to answer the second question, we give both theoretical explanations and empirical evidence regarding the source of the instability, demonstrating that the instability mainly comes from high inter-example correlations within analysis sets. Finally, for the third question, we discuss an initial attempt to mitigate the instability and suggest guidelines for future work such as reporting the decomposed variance for more interpretable results and fair comparison across models. Our code is publicly available at: https://github.com/owenzx/InstabilityAnalysis
Abstract（参考訳）: 自然言語推論(NLI)および読解理解(RC)分析/ストレスセットにおける最先端モデルの性能は極めて不安定であることがわかった。 1)これらの分析セットに基づいて得られた結論の信頼性に不安定性はどのように影響するか? 2)この不安定性はどこから来るのか? (3) この不安定性と潜在的な解決策をどのように扱うべきか。最初の質問は、解析セットに関する徹底的な実証研究を行い、不安定な最終性能に加えて、トレーニング曲線に沿って不安定性が存在することを発見した。また,従来のモデル選択ルーチンの有効性を問う分析検証セットと標準検証セットの相関関係についても検討した。次に、2つ目の疑問に答えるために、不安定の原因に関する理論的説明と実証的な証拠の両方を提示し、不安定性は主に分析セット内の高い例間相関に由来することを示す。最後に,3つ目の質問に対して,不安定性を緩和する最初の試みと,より解釈可能な結果に対する分解分散の報告やモデル間の公正比較などの今後の作業に関するガイドラインを提案する。私たちのコードは、https://github.com/owenzx/InstabilityAnalysisで公開されています。

関連論文リスト

Data Fusion for Partial Identification of Causal Effects [62.56890808004615]
本稿では,研究者が重要な疑問に答えられるような,新しい部分的識別フレームワークを提案する。因果効果は肯定的か否定的か? 本研究の枠組みをSTARプロジェクトに適用し,第3級の標準試験性能に対する教室規模の影響について検討する。
論文参考訳（メタデータ） (2025-05-30T07:13:01Z)
Score matching through the roof: linear, nonlinear, and latent variables causal discovery [18.46845413928147]
観測データからの因果発見は、非常に有望である。既存の手法は根底にある因果構造に関する強い仮定に依存している。線形・非線形・潜在変数モデルにまたがる因果探索のためのフレキシブルアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-07-26T14:09:06Z)
Self-Compatibility: Evaluating Causal Discovery without Ground Truth [28.72650348646176]
本研究では,基底真理が存在しない場合に因果発見アルゴリズムの出力をfalsificationする新しい手法を提案する。我々の重要な洞察は、統計的学習がデータポイントのサブセット間の安定性を求める一方で、因果学習は変数のサブセット間の安定性を求めるべきであるということである。本研究では,不整合性の検出が,仮定や誤差が有限なサンプル効果によって誤って因果関係を推定することを証明する。
論文参考訳（メタデータ） (2023-07-18T18:59:42Z)
Identifying Weight-Variant Latent Causal Models [82.14087963690561]
推移性は潜在因果表現の識別性を阻害する重要な役割を担っている。いくつかの軽微な仮定の下では、潜伏因果表現が自明な置換とスケーリングまで特定可能であることを示すことができる。本稿では,その間の因果関係や因果関係を直接学習する構造的caUsAl変分自動エンコーダを提案する。
論文参考訳（メタデータ） (2022-08-30T11:12:59Z)
Positivity Validation Detection and Explainability via Zero Fraction Multi-Hypothesis Testing and Asymmetrically Pruned Decision Trees [7.688686113950607]
陽性は、観測データから因果推論を行う3つの条件の1つである。非専門家による因果推論の能力を民主化するためには、肯定性をテストするアルゴリズムを設計する必要がある。
論文参考訳（メタデータ） (2021-11-07T08:32:58Z)
Double Perturbation: On the Robustness of Robustness and Counterfactual Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文参考訳（メタデータ） (2021-04-12T06:57:36Z)
Disentangling Observed Causal Effects from Latent Confounders using Method of Moments [67.27068846108047]
我々は、軽度の仮定の下で、識別性と学習可能性に関する保証を提供する。我々は,線形制約付き結合テンソル分解に基づく効率的なアルゴリズムを開発し,スケーラブルで保証可能な解を得る。
論文参考訳（メタデータ） (2021-01-17T07:48:45Z)
Latent Causal Invariant Model [128.7508609492542]
現在の教師付き学習は、データ適合プロセス中に急激な相関を学習することができる。因果予測を求める潜在因果不変モデル(LaCIM)を提案する。
論文参考訳（メタデータ） (2020-11-04T10:00:27Z)
Reachable Sets of Classifiers and Regression Models: (Non-)Robustness Analysis and Robust Training [1.0878040851638]
分類器と回帰モデルの両方の頑健性特性を解析・拡張する。具体的には、(非)難易度を検証し、堅牢なトレーニング手順を提案し、我々のアプローチが敵攻撃よりも優れていることを示す。第2に、ラベル付けされていない入力に対する信頼できない予測と信頼できない予測を区別し、各特徴が予測に与える影響を定量化し、特徴ランキングを計算する技術を提供する。
論文参考訳（メタデータ） (2020-07-28T10:58:06Z)
Stable Prediction via Leveraging Seed Variable [73.9770220107874]
従来の機械学習手法は、非因果変数によって誘導されるトレーニングデータにおいて、微妙に刺激的な相関を利用して予測する。本研究では, 条件付き独立性テストに基づくアルゴリズムを提案し, 種子変数を先行変数とする因果変数を分離し, 安定な予測に採用する。我々のアルゴリズムは、安定した予測のための最先端の手法より優れている。
論文参考訳（メタデータ） (2020-06-09T06:56:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。