論文の概要: "Average" Approximates "First Principal Component"? An Empirical
Analysis on Representations from Neural Language Models
- arxiv url: http://arxiv.org/abs/2104.08673v1
- Date: Sun, 18 Apr 2021 01:15:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 03:49:18.086452
- Title: "Average" Approximates "First Principal Component"? An Empirical
Analysis on Representations from Neural Language Models
- Title(参考訳): 平均的」近似「第一主成分」?
ニューラルネットワークモデルからの表現に関する経験的分析
- Authors: Zihan Wang and Chengyu Dong and Jingbo Shang
- Abstract要約: 「平均」は「第一主成分」を近似する
実験では、これらの表現の平均は、列がこれらの表現である行列の最初の主成分とほぼ同じ方向を共有している。
この性質は表現の分布に本質的であり、必ずしも入力構造と関連していないと仮定する。
- 参考スコア(独自算出の注目度): 23.139210844466252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contextualized representations based on neural language models have furthered
the state of the art in various NLP tasks. Despite its great success, the
nature of such representations remains a mystery. In this paper, we present an
empirical property of these representations -- "average" approximates "first
principal component". Specifically, experiments show that the average of these
representations shares almost the same direction as the first principal
component of the matrix whose columns are these representations. We believe
this explains why the average representation is always a simple yet strong
baseline. Our further examinations show that this property also holds in more
challenging scenarios, for example, when the representations are from a model
right after its random initialization. Therefore, we conjecture that this
property is intrinsic to the distribution of representations and not
necessarily related to the input structure. We realize that these
representations empirically follow a normal distribution for each dimension,
and by assuming this is true, we demonstrate that the empirical property can be
in fact derived mathematically.
- Abstract(参考訳): ニューラルネットワークモデルに基づく文脈化表現は、様々なNLPタスクにおける芸術の状態をさらに高めている。
その大きな成功にもかかわらず、そのような表現の性質は謎のままである。
本稿では、これらの表現の「平均」が「第一主成分」を近似する経験的性質を示す。
具体的には、これらの表現の平均は、列がこれらの表現である行列の最初の主成分とほぼ同じ方向にあることを示す。
平均表現は常に単純だが強いベースラインである理由を説明しています。
さらに、この性質は、例えば、表現がそのランダムな初期化の直後にモデルから来ている場合など、より困難なシナリオにも当てはまることを示す。
したがって、この性質は表現の分布に固有のものであり、必ずしも入力構造に関係しないと仮定する。
これらの表現は各次元の正規分布を経験的に従うことに気づき、これを真と仮定することで、経験的性質が数学的に導出可能であることを示す。
関連論文リスト
- Unsupervised Representation Learning from Sparse Transformation Analysis [79.94858534887801]
本稿では,潜在変数のスパース成分への変換を分解し,シーケンスデータから表現を学習することを提案する。
入力データは、まず潜伏活性化の分布として符号化され、その後確率フローモデルを用いて変換される。
論文 参考訳(メタデータ) (2024-10-07T23:53:25Z) - Representations as Language: An Information-Theoretic Framework for Interpretability [7.2129390689756185]
大規模ニューラルモデルは、幅広い言語的タスクにまたがる印象的なパフォーマンスを示す。
それにもかかわらず、それらは主にブラックボックスであり、解釈が難しい入力のベクトル表現を誘導する。
本稿では,モデルが文から表現へ学習するマッピングを,言語の一種として表現する,解釈可能性に対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-04T16:14:00Z) - Inference via Interpolation: Contrastive Representations Provably Enable Planning and Inference [110.47649327040392]
時系列データを考えると、“今後どうなるか?”や“どうやって来たのか?”といった質問に答えるにはどうすればよいでしょう?
これらの質問は、学習された表現の観点から、いかにコンパクトで閉じた形状の解が得られるかを示す。
論文 参考訳(メタデータ) (2024-03-06T22:27:30Z) - On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - Intriguing Equivalence Structures of the Embedding Space of Vision
Transformers [1.7418480517632609]
事前訓練された大規模な基盤モデルは、最近の人工知能の急増において中心的な役割を果たす。
それら固有の複雑さのため、これらのモデルはよく理解されていない。
解析および系統的な実験により、表現空間は大きな片方向線型部分空間からなることを示す。
論文 参考訳(メタデータ) (2024-01-28T04:59:51Z) - Sample based Explanations via Generalized Representers [42.53488505266559]
一般表現器は, 自然集合の公理的性質を満たすサンプルベース説明の唯一のクラスであることを示す。
我々は、カーネルに与えられたグローバルな重要性を抽出するためのアプローチと、現代の非線形モデルに与えられたカーネルの自然な選択について議論する。
論文 参考訳(メタデータ) (2023-10-27T22:54:47Z) - FedAvg with Fine Tuning: Local Updates Lead to Representation Learning [54.65133770989836]
Federated Averaging (FedAvg)アルゴリズムは、クライアントノードでのいくつかのローカルな勾配更新と、サーバでのモデル平均更新の交互化で構成されている。
我々は、FedAvgの出力の一般化の背景には、クライアントのタスク間の共通データ表現を学習する能力があることを示す。
異種データを用いたフェデレーション画像分類におけるFedAvgの表現学習能力を示す実証的証拠も提供する。
論文 参考訳(メタデータ) (2022-05-27T00:55:24Z) - More Than a Toy: Random Matrix Models Predict How Real-World Neural
Representations Generalize [94.70343385404203]
ほとんどの理論解析は、カーネル回帰においても定性的現象を捉えるには不十分であることがわかった。
古典的GCV推定器は局所確率行列法則が成立するたびに一般化リスクに収束することを示す。
この結果から, ランダム行列理論は, 実際には神経表現の性質を理解する上で重要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-03-11T18:59:01Z) - On the Generalization of Representations in Reinforcement Learning [32.303656009679045]
特定の状態表現から生じる一般化誤差に関する情報的境界を提供する。
我々の境界は任意の状態表現に適用され、よく一般化する表現とよく近似する表現の間の自然な緊張を定量化する。
論文 参考訳(メタデータ) (2022-03-01T15:22:09Z) - Linear Disentangled Representations and Unsupervised Action Estimation [2.793095554369282]
線形不整合表現は標準VAEモデルには一般的に存在しないことを示す。
本稿では,ラベル付けされたアクションシーケンスの必要性を回避し,既約表現を誘導する手法を提案する。
論文 参考訳(メタデータ) (2020-08-18T13:23:57Z) - Weakly-Supervised Disentanglement Without Compromises [53.55580957483103]
インテリジェントエージェントは、環境の変化を観察することで、有用な表現を学べるべきである。
変動の要因の少なくとも1つを共有する非I.d.画像のペアとしてそのような観測をモデル化する。
我々は,どの因子が変化したかのみを知るだけで,非絡み合った表現を学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2020-02-07T16:39:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。