論文の概要: What Changed? Converting Representational Interventions to Natural
Language
- arxiv url: http://arxiv.org/abs/2402.11355v1
- Date: Sat, 17 Feb 2024 18:12:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 21:49:27.388422
- Title: What Changed? Converting Representational Interventions to Natural
Language
- Title(参考訳): 何が変わった?
表現のインターベンションを自然言語に変換する
- Authors: Matan Avitan, Ryan Cotterell, Yoav Goldberg, Shauli Ravfogel
- Abstract要約: 言語モデル(LM)の表現空間をターゲットとした介入は、モデル行動に影響を与える効果的な手段として現れてきた。
表現空間の反ファクトを自然言語の反ファクトに変換することができることを示す。
- 参考スコア(独自算出の注目度): 116.87322784046926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interventions targeting the representation space of language models (LMs)
have emerged as effective means to influence model behavior. These methods are
employed, for example, to eliminate or alter the encoding of demographic
information such as gender within the model's representations, creating a
counterfactual representation. However, since the intervention operates within
the representation space, understanding precisely which features it modifies
poses a challenge. We show that representation-space counterfactuals can be
converted into natural language counterfactuals. We demonstrate that this
approach enables us to analyze the linguistic alterations corresponding to a
given representation-space intervention and to interpret the features utilized
for encoding a specific concept. Moreover, the resulting counterfactuals can be
used to mitigate bias in classification.
- Abstract(参考訳): 言語モデル(LM)の表現空間をターゲットとした介入は、モデル行動に影響を与える効果的な手段として現れてきた。
これらの手法は、例えば、モデル表現内の性別などの人口統計情報のエンコーディングを排除または変更し、反事実表現を作成するために用いられる。
しかし、介入は表現空間内で動作するため、どの特徴を修飾するかを正確に理解することが課題となる。
表現空間の反事実は自然言語の反事実に変換できることを示す。
提案手法は,与えられた表現空間の介入に対応する言語変化を解析し,特定の概念を符号化するための特徴を解釈することを可能にする。
さらに、結果として生じる反事実は分類のバイアスを軽減するのに使うことができる。
関連論文リスト
- MiMiC: Minimally Modified Counterfactuals in the Representation Space [76.94255312690892]
言語モデルは、しばしば性バイアスや有害な言語のような望ましくない行動を示す。
本稿では,表現空間における表現的反事実を生成するための新しい介入手法を提案する。
提案手法は多クラス分類におけるバイアス軽減と有害言語の発生抑制に有効であることを示す。
論文 参考訳(メタデータ) (2024-02-15T00:20:30Z) - Patchscopes: A Unifying Framework for Inspecting Hidden Representations
of Language Models [26.297184486552084]
我々は、Patchscopesと呼ばれるフレームワークを導入し、LLMの計算に関する幅広い疑問にどのように答えられるかを示す。
本稿では,言語空間への射影表現と LLM への介入に基づく事前解釈可能性の手法を,このフレームワークの例と見なせることを示す。
Patchscopesは、事前検査のテクニックを統一するだけでなく、より有能なモデルを使用してより小さなモデルの表現を説明するなど、新たな可能性も開けている。
論文 参考訳(メタデータ) (2024-01-11T18:33:48Z) - Investigating semantic subspaces of Transformer sentence embeddings
through linear structural probing [2.5002227227256864]
本研究では,文レベル表現の研究手法である意味構造探索を用いた実験を行う。
本手法は,2つのタスクの文脈において,異なる言語モデル(エンコーダのみ,デコーダのみ,エンコーダのみ,エンコーダ-デコーダ)と異なる大きさの言語モデルに適用する。
モデルファミリは、その性能と層動力学において大きく異なるが、結果は大半がモデルサイズの不変量である。
論文 参考訳(メタデータ) (2023-10-18T12:32:07Z) - Augmentation Invariant Discrete Representation for Generative Spoken
Language Modeling [41.733860809136196]
生成言語モデリングのための頑健な離散音声表現を効果的かつ効率的に学習する手法を提案する。
提案手法は、音声信号に一連の信号変換を適用し、反復的な擬似ラベル方式を用いてモデルを最適化することに基づく。
さらに、スペイン語とフランス語の翻訳を考慮し、音声から音声への翻訳作業における手法の評価を行い、提案手法が評価基準よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-30T14:15:03Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - Disentangling Generative Factors in Natural Language with Discrete
Variational Autoencoders [0.0]
連続変数は、テキスト中のほとんどの生成因子が離散的であるという事実から、テキストデータの特徴をモデル化するのに理想的ではないかもしれない。
本稿では,言語特徴を離散変数としてモデル化し,不整合表現を学習するための変数間の独立性を促進する変分自動符号化手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T09:10:05Z) - Counterfactual Interventions Reveal the Causal Effect of Relative Clause
Representations on Agreement Prediction [61.4913233397155]
BERTが言語戦略を用いて合意予測中にRCスパンに関する情報を使用することを示す。
また,特定のRCサブタイプに対して生成された反事実表現が,他のRCサブタイプを含む文の数値予測に影響を及ぼし,RC境界に関する情報がBERTの表現に抽象的に符号化されたことを示唆した。
論文 参考訳(メタデータ) (2021-05-14T17:11:55Z) - Unsupervised Distillation of Syntactic Information from Contextualized
Word Representations [62.230491683411536]
我々は,ニューラルネットワーク表現における意味論と構造学の非教師なしの絡み合いの課題に取り組む。
この目的のために、構造的に類似しているが意味的に異なる文群を自動的に生成する。
我々は、我々の変換クラスタベクトルが、語彙的意味論ではなく構造的特性によって空間に現れることを実証する。
論文 参考訳(メタデータ) (2020-10-11T15:13:18Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。