論文の概要: ER-TEST: Evaluating Explanation Regularization Methods for NLP Models
- arxiv url: http://arxiv.org/abs/2205.12542v1
- Date: Wed, 25 May 2022 07:31:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 08:35:50.233671
- Title: ER-TEST: Evaluating Explanation Regularization Methods for NLP Models
- Title(参考訳): ER-TEST:NLPモデルの説明規則化手法の評価
- Authors: Brihi Joshi, Aaron Chan, Ziyi Liu, Shaoliang Nie, Maziar Sanjabi,
Hamed Firooz and Xiang Ren
- Abstract要約: 説明正規化(ER)は、機械論理を人間の論理と整合させることにより、ニューラルネットワークモデルの一般化を改善することを目的としている。
ERモデルのOOD一般化を3次元で評価するためのプロトコルであるER-TESTを提案する。
A) 与えられた設定に対して最も有効なER基準は何か(B) 人間の合理性を持つトレーニングインスタンスの数や選択の影響はどのように影響するのか(C) ERは遠方から指導された人間の合理性で有効か?
- 参考スコア(独自算出の注目度): 30.388370852881827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural language models' (NLMs') reasoning processes are notoriously hard to
explain. Recently, there has been much progress in automatically generating
machine rationales of NLM behavior, but less in utilizing the rationales to
improve NLM behavior. For the latter, explanation regularization (ER) aims to
improve NLM generalization by pushing the machine rationales to align with
human rationales. Whereas prior works primarily evaluate such ER models via
in-distribution (ID) generalization, ER's impact on out-of-distribution (OOD)
is largely underexplored. Plus, little is understood about how ER model
performance is affected by the choice of ER criteria or by the number/choice of
training instances with human rationales. In light of this, we propose ER-TEST,
a protocol for evaluating ER models' OOD generalization along three dimensions:
(1) unseen datasets, (2) contrast set tests, and (3) functional tests. Using
ER-TEST, we study three key questions: (A) Which ER criteria are most effective
for the given OOD setting? (B) How is ER affected by the number/choice of
training instances with human rationales? (C) Is ER effective with distantly
supervised human rationales? ER-TEST enables comprehensive analysis of these
questions by considering a diverse range of tasks and datasets. Through
ER-TEST, we show that ER has little impact on ID performance, but can yield
large gains on OOD performance w.r.t. (1)-(3). Also, we find that the best ER
criterion is task-dependent, while ER can improve OOD performance even with
limited and distantly-supervised human rationales.
- Abstract(参考訳): ニューラルネットワークモデル(NLM)の推論プロセスは説明が難しいことで知られている。
近年,nlm行動の機械的合理性の自動生成に多くの進歩が見られたが,nlm行動を改善するための合理性の利用は少なくなっている。
後者では、説明正則化(ER)は、機械の論理を人間の論理に合わせることによって、NLMの一般化を改善することを目的としている。
先行研究は、主に分布内一般化(ID)によるERモデルの評価を行うが、分布外分布(OOD)に対するERの影響は、主に過小評価されている。
さらに、ERモデルのパフォーマンスがER基準の選択や、人間の合理性を持ったトレーニングインスタンスの数や選択によってどのように影響を受けるかはほとんど分かっていない。
そこで本研究では,ERモデルのOOD一般化を評価するプロトコルであるER-TESTを提案する。
ER-TESTを用いて, (A) 与えられたOOD設定に最も有効なER基準は何か?
(b)人間的合理性のあるトレーニングインスタンスの数・数にerはどのように影響するか?
(C)ERは遠隔指導による人間の理性に有効か?
ER-TESTは、様々なタスクやデータセットを考慮し、これらの質問の包括的な分析を可能にする。
ER-TEST を通して,ER は ID の性能にはほとんど影響しないが,OOD の性能は 1-(3) で大きく向上することを示した。
また、最良なER基準はタスク依存であり、ERは限定的かつ遠方から指示された人間の理性でもOOD性能を向上させることができる。
関連論文リスト
- Neural Reasoning About Agents' Goals, Preferences, and Actions [11.4414301678724]
エージェントの目標、嗜好、行動に関する直感的な心理的推論のための新しいニューラルモデルを提案する。
IRENEは、学習エージェントと世界状態表現のためのグラフニューラルネットワークと、タスクコンテキストをエンコードするトランスフォーマーを組み合わせたものだ。
挑戦的なBaby Intuitions Benchmarkを評価すると、IRENEは5つのタスクのうち3つで新しい最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-12T09:52:35Z) - Cost-Efficient Prompt Engineering for Unsupervised Entity Resolution [2.6080756513915824]
エンティティ分解(ER)は、2つのエンティティが同じ基礎エンティティをいつ参照するかを半自動決定する問題である。
最近の大規模言語モデル(LLM)はERをよりシームレスでドメインに依存しないものにする機会を提供する。
比較的単純で費用効率のよいERプロンプトエンジニアリング手法を検討し、2つの実世界のデータセット上でERに適用する。
論文 参考訳(メタデータ) (2023-10-09T21:57:07Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - A Generalized Doubly Robust Learning Framework for Debiasing Post-Click
Conversion Rate Prediction [23.340584290411208]
クリック後変換率(CVR)予測は、ユーザの興味を見つけ、プラットフォーム収益を増やすための重要なタスクである。
現在、Doublely robust(DR)学習アプローチは、CVR予測を損なうための最先端のパフォーマンスを実現している。
本稿では,DR損失のバイアスを制御し,バイアスと分散を柔軟にバランスするDR-BIASとDR-MSEの2つの新しいDR手法を提案する。
論文 参考訳(メタデータ) (2022-11-12T15:09:23Z) - Are Sample-Efficient NLP Models More Robust? [90.54786862811183]
サンプル効率(所定のID精度に到達するために必要なデータ量)とロバスト性(OOD評価モデルの評価方法)の関係について検討する。
高いサンプル効率は、いくつかのモデリング介入やタスクにおいて、より平均的なOODロバスト性にのみ相関するが、それ以外は相関しない。
これらの結果から,サンプル効率向上のための汎用手法は,データセットとタスクに依存した汎用的なOODロバスト性向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-10-12T17:54:59Z) - Effective Explanations for Entity Resolution Models [21.518135952436975]
本研究では,ERの深層学習における説明可能性に関する基礎的問題について検討する。
本稿では,ER問題のセマンティクスを意識したCERTA手法を提案する。
我々は,公開データセットを用いたDLモデルに基づいて,CERTAによる最先端ERソリューションの説明を実験的に評価した。
論文 参考訳(メタデータ) (2022-03-24T10:50:05Z) - Using machine learning techniques to predict hospital admission at the
emergency department [0.0]
救急部門(ED)における最も重要な課題の一つは、病院入院の恩恵を受ける患者を迅速に特定することである。
機械学習(ML)技術は、医療における診断支援として有望であることを示している。
本研究は,病院入院の予測における業績について,以下の特徴について考察した。
論文 参考訳(メタデータ) (2021-06-23T16:37:37Z) - Hemogram Data as a Tool for Decision-making in COVID-19 Management:
Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。
本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。
提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文 参考訳(メタデータ) (2020-05-10T01:45:03Z) - DeepEnroll: Patient-Trial Matching with Deep Embedding and Entailment
Prediction [67.91606509226132]
臨床試験は医薬品開発に不可欠であるが、高価で不正確で不十分な患者募集に苦しむことが多い。
DeepEnrollは、入力基準(タブラリデータ)を一致する推論のための共有潜在空間に共同でエンコードする、クロスモーダル推論学習モデルである。
論文 参考訳(メタデータ) (2020-01-22T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。