論文の概要: What Changed? Converting Representational Interventions to Natural
Language
- arxiv url: http://arxiv.org/abs/2402.11355v1
- Date: Sat, 17 Feb 2024 18:12:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 21:49:27.388422
- Title: What Changed? Converting Representational Interventions to Natural
Language
- Title(参考訳): 何が変わった?
表現のインターベンションを自然言語に変換する
- Authors: Matan Avitan, Ryan Cotterell, Yoav Goldberg, Shauli Ravfogel
- Abstract要約: 言語モデル(LM)の表現空間をターゲットとした介入は、モデル行動に影響を与える効果的な手段として現れてきた。
表現空間の反ファクトを自然言語の反ファクトに変換することができることを示す。
- 参考スコア(独自算出の注目度): 116.87322784046926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interventions targeting the representation space of language models (LMs)
have emerged as effective means to influence model behavior. These methods are
employed, for example, to eliminate or alter the encoding of demographic
information such as gender within the model's representations, creating a
counterfactual representation. However, since the intervention operates within
the representation space, understanding precisely which features it modifies
poses a challenge. We show that representation-space counterfactuals can be
converted into natural language counterfactuals. We demonstrate that this
approach enables us to analyze the linguistic alterations corresponding to a
given representation-space intervention and to interpret the features utilized
for encoding a specific concept. Moreover, the resulting counterfactuals can be
used to mitigate bias in classification.
- Abstract(参考訳): 言語モデル(LM)の表現空間をターゲットとした介入は、モデル行動に影響を与える効果的な手段として現れてきた。
これらの手法は、例えば、モデル表現内の性別などの人口統計情報のエンコーディングを排除または変更し、反事実表現を作成するために用いられる。
しかし、介入は表現空間内で動作するため、どの特徴を修飾するかを正確に理解することが課題となる。
表現空間の反事実は自然言語の反事実に変換できることを示す。
提案手法は,与えられた表現空間の介入に対応する言語変化を解析し,特定の概念を符号化するための特徴を解釈することを可能にする。
さらに、結果として生じる反事実は分類のバイアスを軽減するのに使うことができる。
関連論文リスト
- Representations as Language: An Information-Theoretic Framework for Interpretability [7.2129390689756185]
大規模ニューラルモデルは、幅広い言語的タスクにまたがる印象的なパフォーマンスを示す。
それにもかかわらず、それらは主にブラックボックスであり、解釈が難しい入力のベクトル表現を誘導する。
本稿では,モデルが文から表現へ学習するマッピングを,言語の一種として表現する,解釈可能性に対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-04T16:14:00Z) - Augmentation Invariant Discrete Representation for Generative Spoken
Language Modeling [41.733860809136196]
生成言語モデリングのための頑健な離散音声表現を効果的かつ効率的に学習する手法を提案する。
提案手法は、音声信号に一連の信号変換を適用し、反復的な擬似ラベル方式を用いてモデルを最適化することに基づく。
さらに、スペイン語とフランス語の翻訳を考慮し、音声から音声への翻訳作業における手法の評価を行い、提案手法が評価基準よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-30T14:15:03Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - Latent Space Explanation by Intervention [16.43087660376697]
本研究では,個別の変分オートエンコーダに基づいて,予測クラスをシフトする介入機構を用いることで,隠れた概念を明らかにすることを目的とする。
説明モデルは、任意の隠された層とその対応するインターバルド表現から符号化された情報を視覚化する。
論文 参考訳(メタデータ) (2021-12-09T13:23:19Z) - Counterfactual Interventions Reveal the Causal Effect of Relative Clause
Representations on Agreement Prediction [61.4913233397155]
BERTが言語戦略を用いて合意予測中にRCスパンに関する情報を使用することを示す。
また,特定のRCサブタイプに対して生成された反事実表現が,他のRCサブタイプを含む文の数値予測に影響を及ぼし,RC境界に関する情報がBERTの表現に抽象的に符号化されたことを示唆した。
論文 参考訳(メタデータ) (2021-05-14T17:11:55Z) - "Let's Eat Grandma": When Punctuation Matters in Sentence Representation
for Sentiment Analysis [13.873803872380229]
我々は、句読点が感情分析において重要な役割を果たすと論じ、構文的および文脈的パフォーマンスを改善するための新しい表現モデルを提案する。
公開データセットの実験を行い、モデルが他の最先端のベースラインメソッドよりも正確に感情を識別することができることを確認します。
論文 参考訳(メタデータ) (2020-12-10T19:07:31Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z) - Interpretable Entity Representations through Large-Scale Typing [61.4277527871572]
本稿では,人間の読みやすいエンティティ表現を作成し,箱から高パフォーマンスを実現する手法を提案する。
我々の表現は、微粒な実体型に対する後続確率に対応するベクトルである。
特定のドメインに対して,学習に基づく方法で,型セットのサイズを縮小できることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:58:03Z) - Analysing Lexical Semantic Change with Contextualised Word
Representations [7.071298726856781]
本稿では,BERTニューラルネットワークモデルを用いて単語使用率の表現を求める手法を提案する。
我々は新しい評価データセットを作成し、モデル表現と検出された意味変化が人間の判断と正に相関していることを示す。
論文 参考訳(メタデータ) (2020-04-29T12:18:14Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。