論文の概要: Similarity Analysis of Contextual Word Representation Models
- arxiv url: http://arxiv.org/abs/2005.01172v1
- Date: Sun, 3 May 2020 19:48:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 06:42:39.088492
- Title: Similarity Analysis of Contextual Word Representation Models
- Title(参考訳): 文脈的単語表現モデルの類似性解析
- Authors: John M. Wu, Yonatan Belinkov, Hassan Sajjad, Nadir Durrani, Fahim
Dalvi, James Glass
- Abstract要約: 我々は、深層モデルにおける情報の局所化のレベルを測定するために、既存の新しい類似度尺度を用いている。
この分析により、同じ家族内のモデルが、予想されるように互いに類似していることが明らかになった。
驚くべきことに、異なるアーキテクチャは比較的類似した表現を持っているが、個々のニューロンが異なる。
- 参考スコア(独自算出の注目度): 39.12749165544309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates contextual word representation models from the lens
of similarity analysis. Given a collection of trained models, we measure the
similarity of their internal representations and attention. Critically, these
models come from vastly different architectures. We use existing and novel
similarity measures that aim to gauge the level of localization of information
in the deep models, and facilitate the investigation of which design factors
affect model similarity, without requiring any external linguistic annotation.
The analysis reveals that models within the same family are more similar to one
another, as may be expected. Surprisingly, different architectures have rather
similar representations, but different individual neurons. We also observed
differences in information localization in lower and higher layers and found
that higher layers are more affected by fine-tuning on downstream tasks.
- Abstract(参考訳): 本稿では,類似度分析のレンズを用いた文脈表現モデルについて検討する。
訓練されたモデルの集合を考えると、内部表現と注意の類似度を測定する。
これらのモデルは、非常に異なるアーキテクチャから生まれています。
深層モデルにおける情報の局所化度を計測することを目的とした既存および新規の類似度尺度を用いて,外部の言語アノテーションを必要とせず,どの設計要因がモデルの類似度に影響するかを検討する。
この分析により、同じ家族内のモデルが、予想されるように互いに似ていることが明らかになった。
驚くべきことに、異なるアーキテクチャは、かなり似た表現を持つが、個々のニューロンが異なる。
また,下位層および上位層における情報局在の差異を観察し,下流タスクの微調整により上位層が影響を受けることを見出した。
関連論文リスト
- Training objective drives the consistency of representational similarity across datasets [19.99817888941361]
プラトン表現仮説(Platonic Representation hypothesis)は、最近の基礎モデルは下流タスクのパフォーマンスの関数として共有表現空間に収束していると主張している。
そこで本研究では,モデル間の表現的類似性が,表現を構成するために使用される刺激の集合によってどのように変化するかを測定するための体系的手法を提案する。
目的関数はデータセット間の表現的類似性の一貫性を決定する上で最も重要な要素であることがわかった。
論文 参考訳(メタデータ) (2024-11-08T13:35:45Z) - Towards Universality: Studying Mechanistic Similarity Across Language Model Architectures [49.24097977047392]
本稿では,言語モデリングの主流となる2つのアーキテクチャ,すなわち Transformers と Mambas について検討する。
我々はこれらのモデルから解釈可能な特徴を分離するためにスパースオートエンコーダ(SAE)を用いることを提案し、これらの2つのモデルでほとんどの特徴が似ていることを示す。
論文 参考訳(メタデータ) (2024-10-09T08:28:53Z) - The Scenario Refiner: Grounding subjects in images at the morphological
level [2.401993998791928]
視覚と言語(V&L)モデルがこのような特徴を形態学レベルで捉えているかどうかを問う。
我々は、V&Lモデルと人間の判断を比較し、モデルの予測が人間の判断と異なることを発見した。
論文 参考訳(メタデータ) (2023-09-20T12:23:06Z) - Similarity of Neural Architectures using Adversarial Attack Transferability [47.66096554602005]
ニューラルネットワーク間の定量的かつスケーラブルな類似度尺度を設計する。
我々は69の最先端画像ネット分類器を大規模に解析する。
我々の結果は、異なるコンポーネントを持つ多様なニューラルアーキテクチャの開発がなぜ必要かについての洞察を提供する。
論文 参考訳(メタデータ) (2022-10-20T16:56:47Z) - Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。
次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文 参考訳(メタデータ) (2022-04-25T19:06:48Z) - Geometric and Topological Inference for Deep Representations of Complex
Networks [13.173307471333619]
我々は、トポロジと表現の幾何学を強調する統計のクラスを提示する。
モデル選択に使用する場合の感度と特異性の観点から,これらの統計値を評価する。
これらの新しい手法により、脳やコンピューター科学者は、脳やモデルによって学習された動的表現変換を可視化することができる。
論文 参考訳(メタデータ) (2022-03-10T17:14:14Z) - Contrastive Learning for Neural Topic Model [14.65513836956786]
敵対的トピックモデル(ATM)は、文書を別の異なるサンプルと区別することで、文書の意味パターンをうまくキャプチャすることができる。
最適化問題として識別目標を再定式化するための新しい手法を提案し,新しいサンプリング手法を設計する。
実験の結果、我々のフレームワークは3つの一般的なベンチマークデータセットにおいて、他の最先端のニューラルトピックモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-10-25T09:46:26Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Few-shot Visual Reasoning with Meta-analogical Contrastive Learning [141.2562447971]
本稿では,類似推論に頼って,数ショット(または低ショット)の視覚推論問題を解くことを提案する。
両領域の要素間の構造的関係を抽出し、類似学習と可能な限り類似するように強制する。
RAVENデータセット上での本手法の有効性を検証し, トレーニングデータが少ない場合, 最先端の手法より優れることを示す。
論文 参考訳(メタデータ) (2020-07-23T14:00:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。