Fugu-MT 論文翻訳(概要): Intervention Lens: from Representation Surgery to String Counterfactuals

論文の概要: Intervention Lens: from Representation Surgery to String Counterfactuals

arxiv url: http://arxiv.org/abs/2402.11355v4
Date: Sun, 20 Oct 2024 20:18:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.857605
Title: Intervention Lens: from Representation Surgery to String Counterfactuals
Title（参考訳）: インターベンションレンズ : 表現外科から指偽物まで
Authors: Matan Avitan, Ryan Cotterell, Yoav Goldberg, Shauli Ravfogel,
Abstract要約: 言語モデル(LM)の表現空間をターゲットとした介入は、モデル行動に影響を与える効果的な手段として現れてきた。表現反事実を文字列反事実に変換する方法を提案する。結果として生じるカウンターファクトは、データ拡張による分類のバイアスを軽減するために使用することができる。
参考スコア（独自算出の注目度）: 106.98481791980367
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Interventions targeting the representation space of language models (LMs) have emerged as an effective means to influence model behavior. Such methods are employed, for example, to eliminate or alter the encoding of demographic information such as gender within the model's representations and, in so doing, create a counterfactual representation. However, because the intervention operates within the representation space, understanding precisely what aspects of the text it modifies poses a challenge. In this paper, we give a method to convert representation counterfactuals into string counterfactuals. We demonstrate that this approach enables us to analyze the linguistic alterations corresponding to a given representation space intervention and to interpret the features utilized to encode a specific concept. Moreover, the resulting counterfactuals can be used to mitigate bias in classification through data augmentation.
Abstract（参考訳）: 言語モデル(LM)の表現空間をターゲットとした介入は、モデル行動に影響を与える効果的な手段として現れてきた。このような手法は、例えば、モデルの表現内で性別などの人口統計情報のエンコーディングを排除または変更するために使われ、その結果、反事実表現を作成する。しかしながら、介入は表現空間内で動作するため、それが修正するテキストのどの側面が課題となるのかを正確に理解することは困難である。本稿では,表現反事実を文字列反事実に変換する方法を提案する。提案手法は,与えられた表現空間の介入に対応する言語変化を解析し,特定の概念を符号化するために使用する特徴を解釈することを可能にする。さらに、結果のカウンターファクトは、データ拡張による分類のバイアスを軽減するために使用することができる。

関連論文リスト

InverseScope: Scalable Activation Inversion for Interpreting Large Language Models [6.841889611296894]
InverseScopeは、入力インバージョンを介して神経活性化を解釈するための仮定ライトでスケーラブルなフレームワークである。高次元空間におけるサンプリングの非効率性に対処するために,新しい条件生成アーキテクチャを提案する。また,サンプル入力上で計算された特徴整合率を用いて,解釈可能性仮説をテストする定量的評価プロトコルを導入する。
論文参考訳（メタデータ） (2025-06-09T03:59:28Z)
Counterfactual Generation from Language Models [64.55296662926919]
対実的推論が介入と概念的に異なることを示す。そこで本研究では,真の文字列反事実を生成するためのフレームワークを提案する。我々の実験は、このアプローチが有意義な反事実を生み出すことを示した。
論文参考訳（メタデータ） (2024-11-11T17:57:30Z)
Representations as Language: An Information-Theoretic Framework for Interpretability [7.2129390689756185]
大規模ニューラルモデルは、幅広い言語的タスクにまたがる印象的なパフォーマンスを示す。それにもかかわらず、それらは主にブラックボックスであり、解釈が難しい入力のベクトル表現を誘導する。本稿では,モデルが文から表現へ学習するマッピングを,言語の一種として表現する,解釈可能性に対する新しいアプローチを提案する。
論文参考訳（メタデータ） (2024-06-04T16:14:00Z)
Augmentation Invariant Discrete Representation for Generative Spoken Language Modeling [41.733860809136196]
生成言語モデリングのための頑健な離散音声表現を効果的かつ効率的に学習する手法を提案する。提案手法は、音声信号に一連の信号変換を適用し、反復的な擬似ラベル方式を用いてモデルを最適化することに基づく。さらに、スペイン語とフランス語の翻訳を考慮し、音声から音声への翻訳作業における手法の評価を行い、提案手法が評価基準よりも優れていることを示す。
論文参考訳（メタデータ） (2022-09-30T14:15:03Z)
Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文参考訳（メタデータ） (2022-02-21T18:32:24Z)
Latent Space Explanation by Intervention [16.43087660376697]
本研究では,個別の変分オートエンコーダに基づいて,予測クラスをシフトする介入機構を用いることで,隠れた概念を明らかにすることを目的とする。説明モデルは、任意の隠された層とその対応するインターバルド表現から符号化された情報を視覚化する。
論文参考訳（メタデータ） (2021-12-09T13:23:19Z)
Counterfactual Interventions Reveal the Causal Effect of Relative Clause Representations on Agreement Prediction [61.4913233397155]
BERTが言語戦略を用いて合意予測中にRCスパンに関する情報を使用することを示す。また,特定のRCサブタイプに対して生成された反事実表現が,他のRCサブタイプを含む文の数値予測に影響を及ぼし,RC境界に関する情報がBERTの表現に抽象的に符号化されたことを示唆した。
論文参考訳（メタデータ） (2021-05-14T17:11:55Z)
"Let's Eat Grandma": When Punctuation Matters in Sentence Representation for Sentiment Analysis [13.873803872380229]
我々は、句読点が感情分析において重要な役割を果たすと論じ、構文的および文脈的パフォーマンスを改善するための新しい表現モデルを提案する。公開データセットの実験を行い、モデルが他の最先端のベースラインメソッドよりも正確に感情を識別することができることを確認します。
論文参考訳（メタデータ） (2020-12-10T19:07:31Z)
Unsupervised Distillation of Syntactic Information from Contextualized Word Representations [62.230491683411536]
我々は,ニューラルネットワーク表現における意味論と構造学の非教師なしの絡み合いの課題に取り組む。この目的のために、構造的に類似しているが意味的に異なる文群を自動的に生成する。我々は、我々の変換クラスタベクトルが、語彙的意味論ではなく構造的特性によって空間に現れることを実証する。
論文参考訳（メタデータ） (2020-10-11T15:13:18Z)
Assessing Phrasal Representation and Composition in Transformers [13.460125148455143]
ディープトランスモデルはNLPタスクのパフォーマンスを新たな限界に押し上げた。本稿では,最先端の事前学習型トランスにおけるフレーズ表現の系統的解析を行う。これらのモデルにおける句表現は、単語の内容に大きく依存しており、ニュアンスな構成の証拠はほとんどない。
論文参考訳（メタデータ） (2020-10-08T04:59:39Z)
Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文参考訳（メタデータ） (2020-09-16T06:53:15Z)
Explaining Black Box Predictions and Unveiling Data Artifacts through Influence Functions [55.660255727031725]
影響関数は、影響力のあるトレーニング例を特定することによって、モデルの判断を説明する。本稿では,代表課題における影響関数と共通単語順応法の比較を行う。我々は,学習データ中の成果物を明らかにすることができる影響関数に基づく新しい尺度を開発した。
論文参考訳（メタデータ） (2020-05-14T00:45:23Z)
Interpretable Entity Representations through Large-Scale Typing [61.4277527871572]
本稿では,人間の読みやすいエンティティ表現を作成し,箱から高パフォーマンスを実現する手法を提案する。我々の表現は、微粒な実体型に対する後続確率に対応するベクトルである。特定のドメインに対して,学習に基づく方法で,型セットのサイズを縮小できることを示す。
論文参考訳（メタデータ） (2020-04-30T23:58:03Z)
Analysing Lexical Semantic Change with Contextualised Word Representations [7.071298726856781]
本稿では,BERTニューラルネットワークモデルを用いて単語使用率の表現を求める手法を提案する。我々は新しい評価データセットを作成し、モデル表現と検出された意味変化が人間の判断と正に相関していることを示す。
論文参考訳（メタデータ） (2020-04-29T12:18:14Z)
Improve Variational Autoencoder for Text Generationwith Discrete Latent Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。 VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文参考訳（メタデータ） (2020-04-22T14:41:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。