論文の概要: Replicating and Extending "Because Their Treebanks Leak": Graph
Isomorphism, Covariants, and Parser Performance
- arxiv url: http://arxiv.org/abs/2106.00352v2
- Date: Wed, 2 Jun 2021 07:18:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 11:03:16.847732
- Title: Replicating and Extending "Because Their Treebanks Leak": Graph
Isomorphism, Covariants, and Parser Performance
- Title(参考訳): 木バンクが漏れているため」の複製と拡張:グラフ同型、共変、パーザ性能
- Authors: Mark Anderson and Anders S{\o}gaard and Carlos G\'omez Rodr\'iguez
- Abstract要約: NLPの他の統計分析と同様に、結果は線形回帰の評価に基づいていた。
そこで本研究では,グラフの同型性に関して,短い文のサブセットのみの性能が異なることを確認した。
このような統計的分析から得られた結論は、より容易に要因を分解することで、制御された実験がそれらを補う必要があることを示唆する。
- 参考スコア(独自算出の注目度): 0.32228025627337864
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: S{\o}gaard (2020) obtained results suggesting the fraction of trees occurring
in the test data isomorphic to trees in the training set accounts for a
non-trivial variation in parser performance. Similar to other statistical
analyses in NLP, the results were based on evaluating linear regressions.
However, the study had methodological issues and was undertaken using a small
sample size leading to unreliable results. We present a replication study in
which we also bin sentences by length and find that only a small subset of
sentences vary in performance with respect to graph isomorphism. Further, the
correlation observed between parser performance and graph isomorphism in the
wild disappears when controlling for covariants. However, in a controlled
experiment, where covariants are kept fixed, we do observe a strong
correlation. We suggest that conclusions drawn from statistical analyses like
this need to be tempered and that controlled experiments can complement them by
more readily teasing factors apart.
- Abstract(参考訳): s{\o}gaard (2020) は、テストデータに含まれる木の割合がトレーニングセット内の木に同型であることを示唆する結果を得た。
NLPの他の統計分析と同様に、結果は線形回帰評価に基づく。
しかし,本研究には方法論的な問題があり,信頼性の低いサンプルサイズを用いて実施した。
そこで本研究では,文の長さを単位とする複製研究を行い,グラフ同型に関して,文のごく一部しか性能に変化がないことを示す。
さらに,共変量を制御する際に,野生におけるパーサ性能とグラフアイソモーフィズムの相関は消失する。
しかし、共変を固定した制御実験では、強い相関関係が観察される。
このような統計的分析から得られた結論は、より容易に要因を分解することで、制御された実験がそれらを補う必要があることを示唆する。
関連論文リスト
- Multiply-Robust Causal Change Attribution [15.501106533308798]
我々は,各因果メカニズムの貢献度を定量化するために,回帰法と再重み付け法を組み合わせた新しい推定方法を開発した。
本手法はモンテカルロシミュレーションにおいて優れた性能を示し,その有効性を示す。
論文 参考訳(メタデータ) (2024-04-12T22:57:01Z) - Logistic Regression Equivalence: A Framework for Comparing Logistic
Regression Models Across Populations [4.518012967046983]
本研究は, 個体群差に対する既定寛容レベルの同値試験が, 推論の精度を高めることを論じる。
診断データについては、等価モデルと等価でないモデルの例を示す。
論文 参考訳(メタデータ) (2023-03-23T15:12:52Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - On the Strong Correlation Between Model Invariance and Generalization [54.812786542023325]
一般化は、見えないデータを分類するモデルの能力をキャプチャする。
不変性はデータの変換におけるモデル予測の一貫性を測定する。
データセット中心の視点から、あるモデルの精度と不変性は異なるテストセット上で線形に相関している。
論文 参考訳(メタデータ) (2022-07-14T17:08:25Z) - Energy Trees: Regression and Classification With Structured and
Mixed-Type Covariates [0.0]
エネルギー木はエネルギー統計を利用して条件推論木の能力を拡張する。
モデルの競争性能を,多変量選択と過度適合に対する頑健性の観点から示す。
また、人間の生物学的データを含む2つの経験的分析を通して、モデルの予測能力を評価する。
論文 参考訳(メタデータ) (2022-07-10T10:41:51Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Prototypical Graph Contrastive Learning [141.30842113683775]
本稿では,有意なサンプリングバイアスを緩和するために,プロトタイプグラフコントラスト学習(PGCL)手法を提案する。
具体的には、PGCLは、グラフデータの基盤となる意味構造を、意味論的に類似したグラフを同じグループにクラスタリングすることでモデル化し、同時に、同じグラフの異なる拡張に対するクラスタリング一貫性を奨励する。
クエリのために、PGCLはさらに、プロトタイプ(クラスタセントロイド)とクエリプロトタイプの間の距離に基づいて、負のサンプルを再重み付けする。
論文 参考訳(メタデータ) (2021-06-17T16:45:31Z) - Counterfactual Invariance to Spurious Correlations: Why and How to Pass
Stress Tests [87.60900567941428]
素早い相関」とは、アナリストが重要とすべきでないと考える入力データのある側面に対するモデルの依存である。
機械学習では、これらにはノウ・イ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ」という特徴がある。
因果推論ツールを用いたストレステストについて検討した。
論文 参考訳(メタデータ) (2021-05-31T14:39:38Z) - CausalVAE: Structured Causal Disentanglement in Variational Autoencoder [52.139696854386976]
変分オートエンコーダ(VAE)の枠組みは、観測から独立した因子をアンタングルするために一般的に用いられる。
本稿では, 因果内因性因子を因果内因性因子に変換する因果層を含むVOEベースの新しいフレームワークCausalVAEを提案する。
その結果、CausalVAEが学習した因果表現は意味論的に解釈可能であり、DAG(Directed Acyclic Graph)としての因果関係は精度良く同定された。
論文 参考訳(メタデータ) (2020-04-18T20:09:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。