論文の概要: A Geometric View of Counterfactual Behavior: Interaction of Boundary Proximity and Local Support
- arxiv url: http://arxiv.org/abs/2606.04209v1
- Date: Tue, 02 Jun 2026 20:55:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.380207
- Title: A Geometric View of Counterfactual Behavior: Interaction of Boundary Proximity and Local Support
- Title(参考訳): 対物行動の幾何学的視点:境界確率と局所的支援の相互作用
- Authors: Ioanna Gemou, Matteo Gamba, Randall Balestriero, Ritambhara Singh,
- Abstract要約: 対実的な説明は、モデルの予測を変える入力に意味論的に意味のある小さな変化を求める。
同様の予測性能を持つモデルは、そのような変化が達成可能かどうかで大きく異なる可能性がある。
- 参考スコア(独自算出の注目度): 18.43106502366609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Counterfactual explanations seek small, semantically meaningful changes to an input that alter a model's prediction, and are widely used to interpret and audit machine learning systems. In modern vision, language, and multimodal systems, pretrained encoders map inputs to representation spaces, and downstream classifier heads impose decision boundaries within those spaces. As a result, the feasibility and distance of nearby counterfactuals depend on boundary placement relative to the data. Yet models with similar predictive performance can differ substantially in whether such changes are achievable and how far representations must move. This work examines this variation using a standardized local search probe across several pretrained encoders and linear classifier heads. Results show that despite similar predictive performance, models differ substantially in their counterfactual behavior. Under fixed representations, varying only the classifier head alters counterfactual outcomes while leaving predictive performance largely unchanged. This variation is explained by the interaction of decision-boundary proximity and local data support, which jointly determine whether prediction changes are both feasible and lie in regions supported by the data, and can also improve counterfactual search within fixed models. Together, these findings identify counterfactual behavior as a distinct dimension beyond predictive performance and show that it can be altered without changing accuracy, with implications for model selection, robustness, and the reliability of counterfactual methods.
- Abstract(参考訳): 対実的説明は、モデルの予測を変える入力に意味論的に意味のある小さな変化を求め、機械学習システムの解釈と監査に広く使用されている。
現代の視覚、言語、マルチモーダルシステムでは、事前訓練されたエンコーダは入力を表現空間にマップし、下流の分類器ヘッドはそれらの空間内に決定境界を課す。
その結果, 近隣のファクトファクトファクトファクトの実現可能性と距離は, データに対する境界配置に依存することがわかった。
しかし、同様の予測性能を持つモデルは、そのような変化が達成可能かどうか、表現がどこまで動くべきかで大きく異なる可能性がある。
本研究は,複数の事前学習エンコーダと線形分類器ヘッドにまたがる標準化された局所探索プローブを用いて,この変動について検討する。
結果は、同様の予測性能にもかかわらず、モデルが反現実的行動において大きく異なることを示している。
固定表現の下では、分類器ヘッドのみの変化は、予測性能をほとんど変更することなく、反ファクト結果を変化させる。
この変動は、決定境界近傍と局所データサポートの相互作用によって説明され、予測変更がデータによって支えられる領域で実現可能であり、かつ、固定モデル内での対実探索を改善することができるかどうかを共同で決定する。
これらの結果から, モデル選択やロバスト性, 反現実的手法の信頼性など, 精度を変えずに変更できることが示唆された。
関連論文リスト
- Learn to Rank: Visual Attribution by Learning Importance Ranking [58.69028273772474]
コンピュータビジョンモデルのための視覚属性マップを生成する新しい手法を提案する。
提案手法は, 任意の数段階の勾配補正を施した1つの前方通過において, 密度の高い画素レベルの属性を生成する。
我々の実験は、一貫した定量的改善と、よりシャープで境界に沿った説明を示す。
論文 参考訳(メタデータ) (2026-04-07T12:53:22Z) - Towards a Unified Representation Evaluation Framework Beyond Downstream Tasks [9.390951257874187]
モデル表現における情報性、等分散、不変性、および要因の分散を定量化するための標準化されたプロトコルを導入する。
類似のダウンストリーム性能を持つモデルからの表現は、これらの属性に関して、かなり異なる振る舞いをすることができる。
論文 参考訳(メタデータ) (2025-05-09T17:58:52Z) - Understanding Fixed Predictions via Confined Regions [30.421105594069676]
機械学習モデルは、個人が結果を変えるのを防ぐ固定された予測を割り当てることができる。
固定予測を監査するための既存のアプローチは、既存の個人データセットへのアクセスを必要とするポイントワイズベースで実施されている。
本研究は,全ての個人が固定予測を受ける特徴空間の限られた領域を見つけることによって,固定予測を識別する新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2025-02-22T23:06:10Z) - Training on Test Data with Bayesian Adaptation for Covariate Shift [96.3250517412545]
ディープニューラルネットワークは、信頼できない不確実性推定で不正確な予測を行うことが多い。
分布シフトの下でのラベルなし入力とモデルパラメータとの明確に定義された関係を提供するベイズモデルを導出する。
本手法は精度と不確実性の両方を向上することを示す。
論文 参考訳(メタデータ) (2021-09-27T01:09:08Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z) - Recoding latent sentence representations -- Dynamic gradient-based
activation modification in RNNs [0.0]
RNNでは、サブオプティマティックな方法で情報をエンコーディングすることは、シーケンスの後の要素に基づいて表現の質に影響を与える可能性がある。
勾配に基づく補正機構を用いて,標準RNNへの拡張を提案する。
言語モデリングの文脈で異なる実験を行い、そのようなメカニズムを使うことによる影響を詳細に調べる。
論文 参考訳(メタデータ) (2021-01-03T17:54:17Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Deducing neighborhoods of classes from a fitted model [68.8204255655161]
本稿では,新しいタイプの解釈可能な機械学習手法を提案する。
量子シフトを用いた分類モデルでは、特徴空間の予測クラスへの分割を理解するのに役立ちます。
基本的に、実際のデータポイント(または特定の関心点)を使用し、特定の特徴をわずかに引き上げたり減少させたりした後の予測の変化を観察する。
論文 参考訳(メタデータ) (2020-09-11T16:35:53Z) - Learning Disentangled Representations with Latent Variation
Predictability [102.4163768995288]
本稿では,潜在不整合表現の変動予測可能性について述べる。
逆生成プロセス内では、潜時変動と対応する画像対の相互情報を最大化することにより、変動予測可能性を高める。
本研究では,潜在表現の絡み合いを測るために,基礎的構造的生成因子に依存しない評価指標を開発する。
論文 参考訳(メタデータ) (2020-07-25T08:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。