論文の概要: On the Transformation of Latent Space in Fine-Tuned NLP Models
- arxiv url: http://arxiv.org/abs/2210.12696v1
- Date: Sun, 23 Oct 2022 10:59:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 16:36:45.526969
- Title: On the Transformation of Latent Space in Fine-Tuned NLP Models
- Title(参考訳): 微調整NLPモデルにおける潜時空間の変換について
- Authors: Nadir Durrani and Hassan Sajjad and Fahim Dalvi and Firoj Alam
- Abstract要約: 微調整NLPモデルにおける潜伏空間の進化について検討する。
階層的クラスタリングを用いて表現空間における潜在概念を発見する。
3つのモデルと3つの下流タスクで事前訓練されたモデルと微調整されたモデルを比較した。
- 参考スコア(独自算出の注目度): 21.364053591693175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the evolution of latent space in fine-tuned NLP models. Different
from the commonly used probing-framework, we opt for an unsupervised method to
analyze representations. More specifically, we discover latent concepts in the
representational space using hierarchical clustering. We then use an alignment
function to gauge the similarity between the latent space of a pre-trained
model and its fine-tuned version. We use traditional linguistic concepts to
facilitate our understanding and also study how the model space transforms
towards task-specific information. We perform a thorough analysis, comparing
pre-trained and fine-tuned models across three models and three downstream
tasks. The notable findings of our work are: i) the latent space of the higher
layers evolve towards task-specific concepts, ii) whereas the lower layers
retain generic concepts acquired in the pre-trained model, iii) we discovered
that some concepts in the higher layers acquire polarity towards the output
class, and iv) that these concepts can be used for generating adversarial
triggers.
- Abstract(参考訳): 微調整NLPモデルにおける潜伏空間の進化について検討する。
一般的に使われている探索フレームとは違って,表現を解析するための教師なし手法を選択する。
より具体的には、階層的クラスタリングを用いて表現空間における潜在概念を発見する。
次にアライメント関数を使用して、事前学習されたモデルの潜在空間とその微調整されたバージョン間の類似度を測定する。
従来の言語概念を用いて理解を促進し、モデル空間がタスク固有の情報にどのように変換されるかを研究する。
3つのモデルと3つの下流タスクの事前学習モデルと微調整モデルを比較し、徹底的な分析を行う。
私たちの研究の注目すべき発見は
一 上位層の潜在空間は、タスク固有の概念に向かって発展する。
ii) 下位層は事前学習したモデルで得られた総称概念を保持している。
iii) 上位層内のいくつかの概念が出力クラスに対して極性を獲得することを見出し、
iv) これらの概念が、逆トリガーを生成するのに使用できること。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Linking Robustness and Generalization: A k* Distribution Analysis of Concept Clustering in Latent Space for Vision Models [56.89974470863207]
本稿では,局所的近傍解析手法であるk*分布を用いて,個々の概念のレベルで学習された潜伏空間について検討する。
視覚モデルの潜在空間の全体的品質を評価するために、個々の概念を解釈するための歪度に基づく真および近似メトリクスを導入する。
論文 参考訳(メタデータ) (2024-08-17T01:43:51Z) - Universal New Physics Latent Space [0.0]
我々は、標準モデルプロセスと標準モデル以外の様々な理論から派生したデータを統一表現(ラテント)空間にマッピングする機械学習手法を開発した。
本手法は, LHCにおける新しい物理の3つの例に適用し, LHCの表現法に従ってモデルがクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2024-07-29T18:00:00Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - On the Emergence of Cross-Task Linearity in the Pretraining-Finetuning Paradigm [47.55215041326702]
我々は、共通の事前訓練されたチェックポイントから、クロスタスク線形性(CTL)と呼ばれる異なるタスクに微調整されたモデルにおいて、興味深い線形現象を発見する。
2つの微調整モデルの重みを線形に補間すると、重み補間モデルの特徴は各層における2つの微調整モデルの特徴の線形性にほぼ等しいことが示される。
プレトレーニング-ファインタニングのパラダイムでは、ニューラルネットワークは、パラメータ空間から特徴空間への写像である線形写像として概ね機能する。
論文 参考訳(メタデータ) (2024-02-06T03:28:36Z) - Uncovering Unique Concept Vectors through Latent Space Decomposition [0.0]
概念に基づく説明は、特徴帰属推定よりも解釈可能な優れたアプローチとして現れてきた。
本稿では,訓練中に深層モデルから学んだ概念を自動的に発見するポストホックな教師なし手法を提案する。
実験の結果、我々の概念の大部分は、人間にとって容易に理解でき、一貫性を示し、目の前の課題に関連があることが判明した。
論文 参考訳(メタデータ) (2023-07-13T17:21:54Z) - Hierarchical Semantic Tree Concept Whitening for Interpretable Image
Classification [19.306487616731765]
ポストホック分析は、モデルに自然に存在するパターンやルールのみを発見することができる。
我々は、隠された層における人間の理解可能な概念の表現を変えるために、積極的に知識を注入する。
本手法は,モデル分類性能に悪影響を及ぼすことなく,セマンティックな概念の絡み合いを良くし,モデルの解釈可能性を向上させる。
論文 参考訳(メタデータ) (2023-07-10T04:54:05Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - Contrastive Neighborhood Alignment [81.65103777329874]
本稿では,学習特徴のトポロジを維持するための多様体学習手法であるContrastive Neighborhood Alignment(CNA)を提案する。
対象モデルは、対照的な損失を用いて、ソース表現空間の局所構造を模倣することを目的としている。
CNAは3つのシナリオで説明される: 多様体学習、モデルが元のデータの局所的なトポロジーを次元還元された空間で維持する、モデル蒸留、小さな学生モデルがより大きな教師を模倣するために訓練される、レガシーモデル更新、より強力なモデルに置き換えられる、という3つのシナリオである。
論文 参考訳(メタデータ) (2022-01-06T04:58:31Z) - Tensor-based Subspace Factorization for StyleGAN [1.1470070927586016]
$tau$GANは、生成モデルの潜在空間をモデル化するためのテンソルベースのメソッドである。
構造的表情データベースとしてBU-3DFEを用いてFFHQで訓練したStyleGANに対するアプローチを検証する。
論文 参考訳(メタデータ) (2021-11-08T15:11:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。