論文の概要: Faithfulness Measurable Masked Language Models
- arxiv url: http://arxiv.org/abs/2310.07819v1
- Date: Wed, 11 Oct 2023 19:00:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 14:14:53.755357
- Title: Faithfulness Measurable Masked Language Models
- Title(参考訳): 忠実さ測定可能なマスキング言語モデル
- Authors: Andreas Madsen, Siva Reddy, Sarath Chandar
- Abstract要約: NLPモデルを説明するための一般的なアプローチは、予測にどのトークンが重要であるかを表現する重要な尺度を使用することである。
そのような指標の1つは、トークンが本当に重要であるなら、それらを隠すことはモデルのパフォーマンスを悪化させる。
これらの課題に対処する本質的な忠実度測定モデルを提案する。
- 参考スコア(独自算出の注目度): 38.67924043709067
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A common approach to explain NLP models, is to use importance measures that
express which tokens are important for a prediction. Unfortunately, such
explanations are often wrong despite being persuasive. Therefore, it is
essential to measure their faithfulness. One such metric is if tokens are truly
important, then masking them should result in worse model performance. However,
token masking introduces out-of-distribution issues and existing solutions are
computationally expensive and employ proxy-models. Furthermore, other metrics
are very limited in scope. In this work, we propose an inherently faithfulness
measurable model that addresses these challenges. This is achieved by using a
novel fine-tuning method that incorporates masking, such that masking tokens
become in-distribution by design. This differs from existing approaches, which
are completely model-agnostic but are inapplicable in practice. We demonstrate
the generality of our approach by applying it to various tasks and validate it
using statistical in-distribution tests. Additionally, because masking is
in-distribution, importance measures which themselves use masking become more
faithful, thus our model becomes more explainable.
- Abstract(参考訳): NLPモデルを説明するための一般的なアプローチは、予測にどのトークンが重要であるかを表現する重要な尺度を使用することである。
残念ながら、そのような説明はしばしば説得力があるにもかかわらず間違っている。
したがって、彼らの誠実さを測ることが不可欠である。
そのようなメトリックの1つは、トークンが本当に重要である場合、それらをマスキングすると、モデルパフォーマンスが悪化する。
しかしトークンマスキングでは分散の問題が発生し、既存のソリューションは計算コストが高く、プロキシモデルを採用している。
さらに、他のメトリクスはスコープが非常に限られています。
本研究では,これらの課題に対処する本質的な忠実度測定モデルを提案する。
これはマスキングを取り入れた新しい微調整手法によって実現され、マスクトークンが設計によって流通する。
これは、モデルに依存しないが実際に適用できない既存のアプローチとは異なる。
我々は,様々なタスクに適用し,統計的分布テストを用いて検証することにより,アプローチの汎用性を示す。
また,マスキングは流通中であるため,マスキングを自身で使用する重要度尺度がより忠実になるので,モデルがより説明可能になる。
関連論文リスト
- Faithful to Whom? Questioning Interpretability Measures in NLP [5.759254425843609]
入力トークンの繰り返しマスキングに基づくメトリクスは、異なるニューラルテキスト分類器の解釈可能性を比較するには適していないことを示す。
本研究は,敵対的攻撃と敵対的訓練が忠実度スコアに及ぼす影響について検討し,テキスト敵対的攻撃における特徴的サリエンスの分析における忠実度尺度の妥当性を実証する。
論文 参考訳(メタデータ) (2023-08-13T15:44:39Z) - Improving Identity-Robustness for Face Models [9.721206532236515]
顔認識ベクトルをアイデンティティのプロキシとして利用して、このような堅牢性を実現する。
我々は, プロキシ埋め込み空間における条件逆密度(CID)に応じて, サンプルを重み付けする。
このような単純なサンプル重み付け方式はトレーニングの堅牢性を向上するだけでなく,全体的な性能も向上することが示唆された。
論文 参考訳(メタデータ) (2023-04-07T20:41:10Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Extreme Masking for Learning Instance and Distributed Visual
Representations [50.152264456036114]
本稿では,個々のトークン上の分散表現を同時に学習するためのスケーラブルなアプローチと,総合的なインスタンス表現を提案する。
分散トークンを表すために自己アテンションブロックを使用し、続いてクロスアテンションブロックを使用して全体インスタンスを集約します。
我々のモデルであるExtreMAは、未成熟なサブセットからのインスタンス表現をトレーニングして、無傷な入力からそれを予測する、プレーンなBYOLアプローチに従っています。
論文 参考訳(メタデータ) (2022-06-09T17:59:43Z) - Identifying and Mitigating Spurious Correlations for Improving
Robustness in NLP Models [19.21465581259624]
多くの問題は、刺激的な相関を利用したモデルや、トレーニングデータとタスクラベルの間のショートカットに起因する可能性がある。
本論文では,NLPモデルにおけるこのような素因的相関を大規模に同定することを目的とする。
提案手法は,スケーラブルな「ショートカット」の集合を効果的かつ効率的に同定し,複数のアプリケーションにおいてより堅牢なモデルに導かれることを示す。
論文 参考訳(メタデータ) (2021-10-14T21:40:03Z) - On the Inductive Bias of Masked Language Modeling: From Statistical to
Syntactic Dependencies [8.370942516424817]
教師なしの方法でトークンをマスキングし予測することは、言語構造と下流のパフォーマンス向上をもたらす。
最近の理論では、予め訓練された言語モデルは、暗黙的にクローゼ還元として機能するマスクを介して有用な誘導バイアスを獲得することを示唆している。
本研究では,このようなクローゼのようなマスクだけでは,ランダムマスキング戦略の成功を説明できないことを示す。
論文 参考訳(メタデータ) (2021-04-12T17:55:27Z) - Masksembles for Uncertainty Estimation [60.400102501013784]
ディープニューラルネットワークは、その強みを巧みに実証しているが、その予測の信頼性を推定することは依然として困難である。
深層アンサンブルは不確かさを推定する最良の方法の1つと考えられているが、訓練や評価は非常に高価である。
mc-dropoutも人気の高い代替品で、安価だが信頼性も低い。
論文 参考訳(メタデータ) (2020-12-15T14:39:57Z) - Masking as an Efficient Alternative to Finetuning for Pretrained
Language Models [49.64561153284428]
我々は、微調整によって修正する代わりに、事前訓練された重量に対する選択的な二乗マスクを学習する。
内在的評価では、マスキング言語モデルによって計算された表現が、下流タスクの解決に必要な情報を符号化していることを示す。
論文 参考訳(メタデータ) (2020-04-26T15:03:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。