論文の概要: Measuring Intrinsic Dimension of Token Embeddings
- arxiv url: http://arxiv.org/abs/2503.02142v1
- Date: Tue, 04 Mar 2025 00:19:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:24:31.360673
- Title: Measuring Intrinsic Dimension of Token Embeddings
- Title(参考訳): 床の内在寸法の測定
- Authors: Takuya Kataiwa, Cho Hakaze, Tetsushi Ohki,
- Abstract要約: トークン埋め込みのIDを,小規模言語モデルや現代大規模言語モデルに推定する。
モデルスケールが大きくなるにつれて冗長性が増加するのを観察する。
埋め込み層にLoRAを適用すると、推定IDの周囲の急激なパープレキシティ低下が観測される。
- 参考スコア(独自算出の注目度): 0.13108652488669734
- License:
- Abstract: In this study, we measure the Intrinsic Dimension (ID) of token embedding to estimate the intrinsic dimensions of the manifolds spanned by the representations, so as to evaluate their redundancy quantitatively compared to their extrinsic dimensionality. In detail, (1) we estimate the ID of token embeddings in small-scale language models and also modern large language models, finding that the embedding spaces often reside on lower-dimensional manifolds compared to their extrinsic dimensionality; (2) we measure the ID across various model sizes and observe an increase in redundancy rates as the model scale grows; (3) we measure the dynamics of IDs during the training process, and find a rapid ID drop in the early stages of training. Moreover, (4) when LoRA is applied to the embedding layers, we observe a sudden drop in perplexity around the estimated IDs, suggesting that the ID can serve as a useful guideline for LoRA application.
- Abstract(参考訳): 本研究では, トークン埋め込みの内在次元(ID)を測定し, 表現によって広がる多様体の内在次元を推定し, 内在次元と外在次元とを定量的に評価する。
細部では,(1)小型言語モデルおよび現代大規模言語モデルにおけるトークン埋め込みのIDを推定し,その埋め込み空間が外在次元よりも低次元多様体上に存在すること,(2)モデルの規模が大きくなるにつれて,IDを計測し,冗長性の増加を観測すること,(3)トレーニング過程のIDのダイナミクスを測定し,訓練の初期段階に迅速なIDドロップを求めること,などを述べる。
さらに, 埋込層にLoRAを適用すると, 推定されたIDの周辺に突然の難易度が低下し, そのIDがLoRAアプリケーションの有用なガイドラインとして機能することが示唆された。
関連論文リスト
- Understanding Variational Autoencoders with Intrinsic Dimension and Information Imbalance [2.7446241148152257]
本研究は,内在次元(ID)と情報不均衡を用いた変分オートエンコーダ(VAE)の隠れ表現の解析(II)
ボトルネックサイズがデータのIDよりも大きくなると,VAEは動作の遷移を行ない,二重ハッシュバックIDプロファイルと情報処理の質的なシフトをIIで捉えた。
論文 参考訳(メタデータ) (2024-11-04T10:58:41Z) - A Geometric Framework for Understanding Memorization in Generative Models [11.263296715798374]
近年の研究では、深層生成モデルにより、デプロイ時にトレーニングデータポイントを記憶・再生することが可能であることが示されている。
これらの知見は、特に暗記によって引き起こされる法的およびプライバシー上のリスクを考慮して、生成モデルのユーザビリティを疑問視する。
本稿では, 多様体の暗記仮説(MMH)を, 暗記を推論する明快な言語として活用する幾何学的枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-31T18:09:01Z) - 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - Beyond the noise: intrinsic dimension estimation with optimal neighbourhood identification [43.26660964074272]
内在次元(ID)は教師なし学習と特徴選択における鍵となる概念である。
提案手法では,スイーツスポットを選択するための自動プロトコル,すなわち,IDが有意義で有用である適切な範囲の尺度を導入する。
人工および実世界のデータセットのベンチマークにより、理論的保証を導き、この手順の有用性とロバスト性を示す。
論文 参考訳(メタデータ) (2024-05-24T01:08:05Z) - Dual-Perspective Knowledge Enrichment for Semi-Supervised 3D Object
Detection [55.210991151015534]
本稿では, DPKE という新しい2次元知識豊か化手法を提案する。
我々のDPKEは、データパースペクティブと機能パースペクティブという2つの観点から、限られたトレーニングデータ、特にラベルなしデータの知識を豊かにしています。
論文 参考訳(メタデータ) (2024-01-10T08:56:07Z) - DCID: Deep Canonical Information Decomposition [84.59396326810085]
本稿では,2つの1次元目標変数間で共有される信号の同定について考察する。
そこで本研究では,地中トラスラベルの存在下で使用可能な評価指標であるICMを提案する。
また、共有変数を学習するための単純かつ効果的なアプローチとして、Deep Canonical Information Decomposition (DCID)を提案する。
論文 参考訳(メタデータ) (2023-06-27T16:59:06Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Intrinsic Dimensionality Estimation within Tight Localities: A
Theoretical and Experimental Analysis [0.0]
そこで本研究では,20個のサンプル点からなるタイトな局所性に対しても安定な局所ID推定手法を提案する。
実験結果から,提案手法の偏差は比較的小さいが, 偏差は比較的小さく, 試料径は最先端の推定値よりもはるかに小さいことがわかった。
論文 参考訳(メタデータ) (2022-09-29T00:00:11Z) - Intrinsic dimension estimation for discrete metrics [65.5438227932088]
本稿では,離散空間に埋め込まれたデータセットの内在次元(ID)を推定するアルゴリズムを提案する。
我々は,その精度をベンチマークデータセットで示すとともに,種鑑定のためのメダゲノミクスデータセットの分析に応用する。
このことは、列の空間の高次元性にもかかわらず、蒸発圧が低次元多様体に作用することを示唆している。
論文 参考訳(メタデータ) (2022-07-20T06:38:36Z) - Self-Attention Neural Bag-of-Features [103.70855797025689]
我々は最近導入された2D-Attentionの上に構築し、注意学習方法論を再構築する。
本稿では,関連情報を強調した2次元目視マスクを学習する機能・時間的アテンション機構を提案する。
論文 参考訳(メタデータ) (2022-01-26T17:54:14Z) - Local intrinsic dimensionality estimators based on concentration of
measure [0.0]
固有次元性(ID)は多次元データポイント雲の最も基本的な特徴の1つである。
多次元データポイント雲の線形分離性に基づくIDの新しい局所推定手法を提案する。
論文 参考訳(メタデータ) (2020-01-31T09:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。