論文の概要: Log-linear Guardedness and its Implications
- arxiv url: http://arxiv.org/abs/2210.10012v5
- Date: Fri, 10 May 2024 20:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 02:01:31.828572
- Title: Log-linear Guardedness and its Implications
- Title(参考訳): 対数線形ガードネスとその意味
- Authors: Shauli Ravfogel, Yoav Goldberg, Ryan Cotterell,
- Abstract要約: 線形性を仮定する神経表現から人間の解釈可能な概念を消去する方法は、抽出可能で有用であることが判明した。
この研究は、対数線ガードネスの概念を、敵が表現から直接その概念を予測することができないものとして正式に定義している。
バイナリの場合、ある仮定の下では、下流の対数線形モデルでは消去された概念を復元できないことを示す。
- 参考スコア(独自算出の注目度): 116.87322784046926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Methods for erasing human-interpretable concepts from neural representations that assume linearity have been found to be tractable and useful. However, the impact of this removal on the behavior of downstream classifiers trained on the modified representations is not fully understood. In this work, we formally define the notion of log-linear guardedness as the inability of an adversary to predict the concept directly from the representation, and study its implications. We show that, in the binary case, under certain assumptions, a downstream log-linear model cannot recover the erased concept. However, we demonstrate that a multiclass log-linear model \emph{can} be constructed that indirectly recovers the concept in some cases, pointing to the inherent limitations of log-linear guardedness as a downstream bias mitigation technique. These findings shed light on the theoretical limitations of linear erasure methods and highlight the need for further research on the connections between intrinsic and extrinsic bias in neural models.
- Abstract(参考訳): 線形性を仮定する神経表現から人間の解釈可能な概念を消去する方法は、抽出可能で有用であることが判明した。
しかし、この除去が修正表現で訓練された下流分類器の挙動に与える影響は、完全には理解されていない。
本研究は,対数線ガードネスの概念を,敵の表現から直接概念を予測できないものと定義し,その意味について考察する。
バイナリの場合、ある仮定の下では、下流の対数線形モデルでは消去された概念を復元できないことを示す。
しかし,マルチクラス対数線形モデルであるemph{can}が,対数線形ガード性の本質的な限界を下流バイアス緩和手法として指摘し,間接的にこの概念を回復することを示す。
これらの知見は線形消去法の理論的限界に光を当て、ニューラルモデルにおける内在バイアスと外因バイアスの関連性についてさらなる研究の必要性を強調した。
関連論文リスト
- Cross-Entropy Is All You Need To Invert the Data Generating Process [29.94396019742267]
経験的現象は、教師付きモデルが線形な方法で変化の解釈可能な要因を学習できることを示唆している。
近年の自己教師型学習の進歩により,データ生成過程を反転させることで潜在構造を復元できることが示されている。
標準分類タスクにおいても,モデルが線形変換までの変動の基底構造因子の表現を学習することが証明された。
論文 参考訳(メタデータ) (2024-10-29T09:03:57Z) - Bayesian Inference for Consistent Predictions in Overparameterized Nonlinear Regression [0.0]
本研究では,ベイズフレームワークにおける過パラメータ化非線形回帰の予測特性について検討した。
リプシッツ連続活性化関数を持つ一般化線形および単一ニューロンモデルに対して後部収縮が成立する。
提案手法は数値シミュレーションと実データアプリケーションを用いて検証した。
論文 参考訳(メタデータ) (2024-04-06T04:22:48Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Kernelized Concept Erasure [108.65038124096907]
概念消去のための線形ミニマックスゲームのカーネル化を提案する。
特定の非線形敵が概念を予測するのを防ぐことができる。
しかし、保護は異なる非線形敵に移動しない。
論文 参考訳(メタデータ) (2022-01-28T15:45:13Z) - Linear Adversarial Concept Erasure [108.37226654006153]
与えられた概念に対応する線形部分空間の同定と消去の問題を定式化する。
提案手法は, トラクタビリティと解釈性を維持しつつ, 深い非線形分類器のバイアスを効果的に軽減し, 高い表現性を有することを示す。
論文 参考訳(メタデータ) (2022-01-28T13:00:17Z) - Benign Overfitting in Adversarially Robust Linear Classification [91.42259226639837]
分類器がノイズの多いトレーニングデータを記憶しながらも、優れた一般化性能を達成している「双曲オーバーフィッティング」は、機械学習コミュニティにおいて大きな注目を集めている。
本研究は, 対人訓練において, 対人訓練において, 良心過剰が実際に発生することを示し, 対人訓練に対する防御の原則的アプローチを示す。
論文 参考訳(メタデータ) (2021-12-31T00:27:31Z) - Relaxing the Constraints on Predictive Coding Models [62.997667081978825]
予測符号化(英: Predictive coding)は、脳が行う主計算が予測誤差の最小化であるとする皮質機能の影響力のある理論である。
アルゴリズムの標準的な実装は、同じ前方と後方の重み、後方の非線形微分、1-1エラーユニット接続といった、潜在的に神経的に予測できない特徴を含んでいる。
本稿では,これらの特徴はアルゴリズムに不可欠なものではなく,Hebbianの更新ルールを用いてパラメータセットを直接あるいは学習することで,学習性能に悪影響を及ぼすことなく除去可能であることを示す。
論文 参考訳(メタデータ) (2020-10-02T15:21:37Z) - Linear Disentangled Representations and Unsupervised Action Estimation [2.793095554369282]
線形不整合表現は標準VAEモデルには一般的に存在しないことを示す。
本稿では,ラベル付けされたアクションシーケンスの必要性を回避し,既約表現を誘導する手法を提案する。
論文 参考訳(メタデータ) (2020-08-18T13:23:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。