論文の概要: Intervention Lens: from Representation Surgery to String Counterfactuals
- arxiv url: http://arxiv.org/abs/2402.11355v4
- Date: Sun, 20 Oct 2024 20:18:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:15:19.426601
- Title: Intervention Lens: from Representation Surgery to String Counterfactuals
- Title(参考訳): インターベンションレンズ : 表現外科から指偽物まで
- Authors: Matan Avitan, Ryan Cotterell, Yoav Goldberg, Shauli Ravfogel,
- Abstract要約: 言語モデル(LM)の表現空間をターゲットとした介入は、モデル行動に影響を与える効果的な手段として現れてきた。
表現反事実を文字列反事実に変換する方法を提案する。
結果として生じるカウンターファクトは、データ拡張による分類のバイアスを軽減するために使用することができる。
- 参考スコア(独自算出の注目度): 106.98481791980367
- License:
- Abstract: Interventions targeting the representation space of language models (LMs) have emerged as an effective means to influence model behavior. Such methods are employed, for example, to eliminate or alter the encoding of demographic information such as gender within the model's representations and, in so doing, create a counterfactual representation. However, because the intervention operates within the representation space, understanding precisely what aspects of the text it modifies poses a challenge. In this paper, we give a method to convert representation counterfactuals into string counterfactuals. We demonstrate that this approach enables us to analyze the linguistic alterations corresponding to a given representation space intervention and to interpret the features utilized to encode a specific concept. Moreover, the resulting counterfactuals can be used to mitigate bias in classification through data augmentation.
- Abstract(参考訳): 言語モデル(LM)の表現空間をターゲットとした介入は、モデル行動に影響を与える効果的な手段として現れてきた。
このような手法は、例えば、モデルの表現内で性別などの人口統計情報のエンコーディングを排除または変更するために使われ、その結果、反事実表現を作成する。
しかしながら、介入は表現空間内で動作するため、それが修正するテキストのどの側面が課題となるのかを正確に理解することは困難である。
本稿では,表現反事実を文字列反事実に変換する方法を提案する。
提案手法は,与えられた表現空間の介入に対応する言語変化を解析し,特定の概念を符号化するために使用する特徴を解釈することを可能にする。
さらに、結果のカウンターファクトは、データ拡張による分類のバイアスを軽減するために使用することができる。
関連論文リスト
- Representations as Language: An Information-Theoretic Framework for Interpretability [7.2129390689756185]
大規模ニューラルモデルは、幅広い言語的タスクにまたがる印象的なパフォーマンスを示す。
それにもかかわらず、それらは主にブラックボックスであり、解釈が難しい入力のベクトル表現を誘導する。
本稿では,モデルが文から表現へ学習するマッピングを,言語の一種として表現する,解釈可能性に対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-04T16:14:00Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - Latent Space Explanation by Intervention [16.43087660376697]
本研究では,個別の変分オートエンコーダに基づいて,予測クラスをシフトする介入機構を用いることで,隠れた概念を明らかにすることを目的とする。
説明モデルは、任意の隠された層とその対応するインターバルド表現から符号化された情報を視覚化する。
論文 参考訳(メタデータ) (2021-12-09T13:23:19Z) - Counterfactual Interventions Reveal the Causal Effect of Relative Clause
Representations on Agreement Prediction [61.4913233397155]
BERTが言語戦略を用いて合意予測中にRCスパンに関する情報を使用することを示す。
また,特定のRCサブタイプに対して生成された反事実表現が,他のRCサブタイプを含む文の数値予測に影響を及ぼし,RC境界に関する情報がBERTの表現に抽象的に符号化されたことを示唆した。
論文 参考訳(メタデータ) (2021-05-14T17:11:55Z) - "Let's Eat Grandma": When Punctuation Matters in Sentence Representation
for Sentiment Analysis [13.873803872380229]
我々は、句読点が感情分析において重要な役割を果たすと論じ、構文的および文脈的パフォーマンスを改善するための新しい表現モデルを提案する。
公開データセットの実験を行い、モデルが他の最先端のベースラインメソッドよりも正確に感情を識別することができることを確認します。
論文 参考訳(メタデータ) (2020-12-10T19:07:31Z) - Unsupervised Distillation of Syntactic Information from Contextualized
Word Representations [62.230491683411536]
我々は,ニューラルネットワーク表現における意味論と構造学の非教師なしの絡み合いの課題に取り組む。
この目的のために、構造的に類似しているが意味的に異なる文群を自動的に生成する。
我々は、我々の変換クラスタベクトルが、語彙的意味論ではなく構造的特性によって空間に現れることを実証する。
論文 参考訳(メタデータ) (2020-10-11T15:13:18Z) - Assessing Phrasal Representation and Composition in Transformers [13.460125148455143]
ディープトランスモデルはNLPタスクのパフォーマンスを新たな限界に押し上げた。
本稿では,最先端の事前学習型トランスにおけるフレーズ表現の系統的解析を行う。
これらのモデルにおける句表現は、単語の内容に大きく依存しており、ニュアンスな構成の証拠はほとんどない。
論文 参考訳(メタデータ) (2020-10-08T04:59:39Z) - Explaining Black Box Predictions and Unveiling Data Artifacts through
Influence Functions [55.660255727031725]
影響関数は、影響力のあるトレーニング例を特定することによって、モデルの判断を説明する。
本稿では,代表課題における影響関数と共通単語順応法の比較を行う。
我々は,学習データ中の成果物を明らかにすることができる影響関数に基づく新しい尺度を開発した。
論文 参考訳(メタデータ) (2020-05-14T00:45:23Z) - Analysing Lexical Semantic Change with Contextualised Word
Representations [7.071298726856781]
本稿では,BERTニューラルネットワークモデルを用いて単語使用率の表現を求める手法を提案する。
我々は新しい評価データセットを作成し、モデル表現と検出された意味変化が人間の判断と正に相関していることを示す。
論文 参考訳(メタデータ) (2020-04-29T12:18:14Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。