論文の概要: Removing Spurious Correlation from Neural Network Interpretations
- arxiv url: http://arxiv.org/abs/2412.02893v1
- Date: Tue, 03 Dec 2024 22:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:10:04.675443
- Title: Removing Spurious Correlation from Neural Network Interpretations
- Title(参考訳): ニューラルネットワーク解釈による純粋相関の除去
- Authors: Milad Fotouhi, Mohammad Taha Bahadori, Oluwaseyi Feyisetan, Payman Arabshahi, David Heckerman,
- Abstract要約: 共同ファウンダーは、このトピックの影響を制御できる新たな因果媒介手法を提案する。
2つの大きな言語モデルを用いた実験では、局所化仮説を検証し、会話トピックの効果に応じて、毒性が局所化されにくくなることを示す。
- 参考スコア(独自算出の注目度): 9.542023122304096
- License:
- Abstract: The existing algorithms for identification of neurons responsible for undesired and harmful behaviors do not consider the effects of confounders such as topic of the conversation. In this work, we show that confounders can create spurious correlations and propose a new causal mediation approach that controls the impact of the topic. In experiments with two large language models, we study the localization hypothesis and show that adjusting for the effect of conversation topic, toxicity becomes less localized.
- Abstract(参考訳): 望ましくない、有害な行動に責任を持つニューロンを同定するための既存のアルゴリズムは、会話の話題のような共同創設者の影響を考慮していない。
本研究は,共同創設者が突発的な相関関係を創出し,トピックの影響を制御できる新たな因果媒介アプローチを提案するものである。
2つの大きな言語モデルを用いた実験では、局所化仮説を検証し、会話トピックの効果に応じて、毒性が局所化されにくくなることを示す。
関連論文リスト
- Missed Causes and Ambiguous Effects: Counterfactuals Pose Challenges for Interpreting Neural Networks [14.407025310553225]
解釈可能性の研究は、当然のことながら因果関係の反事実理論を採っている。
反事実理論は、我々の発見を具体的かつ予測可能な方法でバイアスする問題を持っている。
本稿では,これらの課題が解釈可能性研究者に与える影響について論じる。
論文 参考訳(メタデータ) (2024-07-05T17:53:03Z) - Position Debiasing Fine-Tuning for Causal Perception in Long-Term Dialogue [26.171522810457486]
対話システムの中核は、広範囲な対話履歴に基づいて、関連性、情報的、人間的な応答を生成することである。
そのようなモデルには、本来ある位置バイアスという自然な欠点がある。
本稿では,摂動に基づく因果変数探索手法を用いた因果知覚長期対話フレームワーク(CPD)を提案する。
論文 参考訳(メタデータ) (2024-06-04T06:33:13Z) - CausalDialogue: Modeling Utterance-level Causality in Conversations [83.03604651485327]
クラウドソーシングを通じて、CausalDialogueという新しいデータセットをコンパイルし、拡張しました。
このデータセットは、有向非巡回グラフ(DAG)構造内に複数の因果効果対を含む。
ニューラル会話モデルの訓練における発話レベルにおける因果性の影響を高めるために,Exponential Average Treatment Effect (ExMATE) と呼ばれる因果性強化手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T18:31:50Z) - Neural Causal Models for Counterfactual Identification and Estimation [62.30444687707919]
本稿では,ニューラルモデルによる反事実文の評価について検討する。
まず、神経因果モデル(NCM)が十分に表現可能であることを示す。
第2に,反事実分布の同時同定と推定を行うアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-09-30T18:29:09Z) - Improving Topic Segmentation by Injecting Discourse Dependencies [29.353285741379334]
本論文では, 談話依存構造を注入した談話認識型ニューラルトピックセグメンテーションモデルを提案する。
英語評価データセットに関する実証研究により,ニューラルネットワークのトピックセグメンタに上述の談話構造を注入することで,その性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-09-18T18:22:25Z) - Revisiting Contextual Toxicity Detection in Conversations [28.465019968374413]
ヒトによる毒性のラベル付けは、一般的に、会話の構造、極性、文脈の話題に影響されている。
本稿では、文脈毒性検出のためのニューラルネットワークを導入して、これらの知見を計算検出モデルに適用することを提案する。
また、このようなモデルが、特にソーシャルメディア領域において、合成データの恩恵を受けることを実証した。
論文 参考訳(メタデータ) (2021-11-24T11:50:37Z) - Learning Neural Causal Models with Active Interventions [83.44636110899742]
本稿では,データ生成プロセスの根底にある因果構造を素早く識別する能動的介入ターゲット機構を提案する。
本手法は,ランダムな介入ターゲティングと比較して,要求される対話回数を大幅に削減する。
シミュレーションデータから実世界のデータまで,複数のベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-06T13:10:37Z) - ACRE: Abstract Causal REasoning Beyond Covariation [90.99059920286484]
因果誘導における現在の視覚システムの系統的評価のための抽象因果分析データセットについて紹介する。
Blicket実験における因果発見の研究の流れに触発され、独立シナリオと介入シナリオのいずれにおいても、以下の4種類の質問で視覚的推論システムに問い合わせる。
純粋なニューラルモデルは確率レベルのパフォーマンスの下で連想戦略に向かう傾向があるのに対し、ニューロシンボリックな組み合わせは後方ブロッキングの推論に苦しむ。
論文 参考訳(メタデータ) (2021-03-26T02:42:38Z) - Efficient Causal Inference from Combined Observational and
Interventional Data through Causal Reductions [68.6505592770171]
因果効果を推定する際の主な課題の1つである。
そこで本研究では,任意の数の高次元潜入共創者を置き換える新たな因果還元法を提案する。
パラメータ化縮小モデルを観測データと介入データから共同で推定する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-08T14:29:07Z) - Towards Causal Representation Learning [96.110881654479]
機械学習とグラフィカル因果関係の2つの分野が生まれ、別々に発展した。
現在、他分野の進歩の恩恵を受けるために、クロスポリン化と両方の分野への関心が高まっている。
論文 参考訳(メタデータ) (2021-02-22T15:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。