論文の概要: Improving Causal Interventions in Amnesic Probing with Mean Projection or LEACE
- arxiv url: http://arxiv.org/abs/2506.11673v1
- Date: Fri, 13 Jun 2025 11:07:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.760753
- Title: Improving Causal Interventions in Amnesic Probing with Mean Projection or LEACE
- Title(参考訳): 平均射影またはLEACEによるアムネスク探傷における因果干渉の改善
- Authors: Alicja Dobrzeniecka, Antske Fokkens, Pia Sommerauer,
- Abstract要約: アムネシック・プローブ(アムネシック・プローブ)は、特定の言語情報がモデルに与える影響を調べるために用いられる技法である。
関連する情報を特定して取り除き、主要なタスクにおけるモデルのパフォーマンスが変化したかどうかを評価する。
イテレーティブ・ヌルスペース・プロジェクション(INLP, Iterative Nullspace Projection)は,対象情報を削除する際に,表現にランダムな修正を導入する手法である。
提案する2つの代替手段である平均射影(MP)とLEACEは、より標的的な方法で情報を除去し、行動説明を得る可能性を高めることを実証する。
- 参考スコア(独自算出の注目度): 4.151073288078749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Amnesic probing is a technique used to examine the influence of specific linguistic information on the behaviour of a model. This involves identifying and removing the relevant information and then assessing whether the model's performance on the main task changes. If the removed information is relevant, the model's performance should decline. The difficulty with this approach lies in removing only the target information while leaving other information unchanged. It has been shown that Iterative Nullspace Projection (INLP), a widely used removal technique, introduces random modifications to representations when eliminating target information. We demonstrate that Mean Projection (MP) and LEACE, two proposed alternatives, remove information in a more targeted manner, thereby enhancing the potential for obtaining behavioural explanations through Amnesic Probing.
- Abstract(参考訳): アムネシック・プローブ(アムネシック・プローブ)は、特定の言語情報がモデルの振る舞いに与える影響を調べるために用いられる技法である。
これには、関連する情報を特定して削除し、主要なタスクにおけるモデルのパフォーマンスが変化したかどうかを評価することが含まれる。
削除された情報が関連しているなら、モデルの性能は低下すべきである。
このアプローチの難しさは、ターゲット情報だけを取り除き、他の情報をそのまま残すことにある。
イテレーティブ・ヌルスペース・プロジェクション(INLP, Iterative Nullspace Projection)は,対象情報を削除する際に,表現にランダムな修正を導入する手法である。
提案する2つの代替手段である平均射影 (MP) と LEACE が, より標的的な方法で情報を除去し, アムネス的探索による行動説明を得る可能性を高めることを実証した。
関連論文リスト
- Machine Unlearning Doesn't Do What You Think: Lessons for Generative AI Policy, Research, and Practice [186.055899073629]
非学習はしばしば、生成AIモデルからターゲット情報の影響を取り除くソリューションとして呼び出される。
未学習はまた、モデルが出力中にターゲットとなるタイプの情報を生成するのを防ぐ方法として提案されている。
これら2つの目標 - モデルからの情報の標的的除去と、モデル出力からの情報のターゲット的抑制 - は、様々な技術的および現実的な課題を表す。
論文 参考訳(メタデータ) (2024-12-09T20:18:43Z) - Explainable Image Recognition via Enhanced Slot-attention Based Classifier [28.259040737540797]
本稿では,修正スロットアテンション機構に基づく視覚的に説明可能な分類器であるESCOUTERを紹介する。
ESCOUTERは、高い分類精度を提供するだけでなく、意思決定の背後にある理由についてより透明な洞察を提供することによって、自分自身を区別している。
ESCOUTER専用の新しい損失関数は、モデルの振舞いを微調整し、肯定的な説明と否定的な説明の切り替えを可能にするように設計されている。
論文 参考訳(メタデータ) (2024-07-08T05:05:43Z) - Erasing Undesirable Influence in Diffusion Models [51.225365010401006]
拡散モデルは高品質な画像を生成するのに非常に効果的であるが、NSFW(職場では安全ではない)コンテンツの意図しない生成のようなリスクを引き起こす。
本研究では,データに関連付けられた不要な情報を取り除き,保存データに対する拡散モデルの実用性を維持するために設計されたアルゴリズムであるEraseDiffを紹介する。
論文 参考訳(メタデータ) (2024-01-11T09:30:36Z) - Data augmentation and explainability for bias discovery and mitigation
in deep learning [0.0]
この論文は、ディープニューラルネットワークにおけるバイアスの影響を調査し、モデルパフォーマンスへの影響を減らす方法を提案する。
最初の部分は、データやモデルのバイアスやエラーの潜在的な原因を分類し、記述することから始まり、特に機械学習パイプラインのバイアスに焦点を当てている。
次の章では、予測と制御を正当化し、モデルを改善する手段として、説明可能なAIの分類と方法について概説する。
論文 参考訳(メタデータ) (2023-08-18T11:02:27Z) - Shielded Representations: Protecting Sensitive Attributes Through
Iterative Gradient-Based Projection [39.16319169760823]
イテレーティブ・グラディエント・ベース・プロジェクション(Iterative Gradient-Based Projection)は、非線形符号化された概念をニューラル表現から除去する新しい方法である。
以上の結果より, IGBPは内因性および外因性評価によるバイアス軽減に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-05-17T13:26:57Z) - Learning Bias-Invariant Representation by Cross-Sample Mutual
Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。
相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。
我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T21:17:02Z) - Fairness-aware Summarization for Justified Decision-Making [16.47665757950391]
テキストベースニューラルネットワークの正当化における不公平性の問題に焦点をあてる。
本研究では,これらのモデルにおけるバイアスを検出し,対処するための,公平性を考慮した要約機構を提案する。
論文 参考訳(メタデータ) (2021-07-13T17:04:10Z) - Conditional Contrastive Learning: Removing Undesirable Information in
Self-Supervised Representations [108.29288034509305]
我々は,自己指導型表現において望ましくない情報を除去するために,条件付きコントラスト学習を開発する。
提案手法は,下流タスクの自己教師付き表現をうまく学習できることを実証的に実証する。
論文 参考訳(メタデータ) (2021-06-05T10:51:26Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。