論文の概要: Why bother with geometry? On the relevance of linear decompositions of
Transformer embeddings
- arxiv url: http://arxiv.org/abs/2310.06977v1
- Date: Tue, 10 Oct 2023 19:56:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 01:26:19.173796
- Title: Why bother with geometry? On the relevance of linear decompositions of
Transformer embeddings
- Title(参考訳): なぜ幾何学に悩むのか?
変圧器埋め込みの線形分解の関連性について
- Authors: Timothee Mickus, Ra\'ul V\'azquez
- Abstract要約: このような2つの埋め込み分解法を用いて,機械翻訳デコーダの表現について検討した。
結果から,分解誘導指標はモデル性能と効果的に相関するが,異なる実行時間にまたがる変動は,この問題に対するより微妙な取扱いを示唆している。
- 参考スコア(独自算出の注目度): 5.151529346168568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A recent body of work has demonstrated that Transformer embeddings can be
linearly decomposed into well-defined sums of factors, that can in turn be
related to specific network inputs or components. There is however still a
dearth of work studying whether these mathematical reformulations are
empirically meaningful. In the present work, we study representations from
machine-translation decoders using two of such embedding decomposition methods.
Our results indicate that, while decomposition-derived indicators effectively
correlate with model performance, variation across different runs suggests a
more nuanced take on this question. The high variability of our measurements
indicate that geometry reflects model-specific characteristics more than it
does sentence-specific computations, and that similar training conditions do
not guarantee similar vector spaces.
- Abstract(参考訳): 最近の研究で、トランスフォーマー埋め込みは、明確に定義された要素の和に線形に分解され、それによって特定のネットワーク入力やコンポーネントに関連付けられることが示されている。
しかし、これらの数学的改革が経験的に有意義であるかどうかの研究は依然として行われている。
本研究では,2つの埋め込み分解法を用いて,機械翻訳デコーダの表現について検討する。
結果から,分解由来の指標はモデル性能と効果的に相関するが,異なる実行の変動は,この問題に対するよりニュアンス的な考察を示唆する。
以上の結果から, 幾何は文別計算よりもモデル固有特性を反映しており, 同様の訓練条件は類似ベクトル空間を保証しないことが示された。
関連論文リスト
- Knowledge Composition using Task Vectors with Learned Anisotropic Scaling [51.4661186662329]
本稿では,パラメータブロックと異なる学習係数を線形に組み合わせ,タスクベクトルレベルでの異方性スケーリングを実現するアルゴリズムであるaTLASを紹介する。
このような線形結合は事前学習されたモデルの低内在性を明示的に利用しており、学習可能なパラメータは数係数のみであることを示す。
本稿では,タスク算術,少数ショット認識,テスト時間適応において,教師なしあるいは教師なしの目的を用いた手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-07-03T07:54:08Z) - Optimal Matrix-Mimetic Tensor Algebras via Variable Projection [0.0]
行列緩和性(Matrix mimeticity)は、テンソルを、行列に類似した乗算、分解、解析が可能な作用素として解釈することから生じる。
我々は、データの事前の知識に頼ることなく、最適線形写像と対応するテンソル表現を学習する。
可変射影型アルゴリズムの変換と収束解析の独創性理論を提供する。
論文 参考訳(メタデータ) (2024-06-11T04:52:23Z) - When can transformers reason with abstract symbols? [25.63285482210457]
大規模なタスク群における関係推論タスクに対して、変換器は抽象的関係を学習し、テストセットに一般化する。
これは、古典的な完全接続ネットワークとは対照的に、我々は推論を学ぶのに失敗している。
論文 参考訳(メタデータ) (2023-10-15T06:45:38Z) - From Bricks to Bridges: Product of Invariances to Enhance Latent Space Communication [19.336940758147442]
異なるニューラルネットワークによって学習された表現は、モデルが同様の誘導バイアスの下で訓練されたときに構造的類似性を隠蔽することが観察されている。
我々は,不変成分の積空間を潜在表現の上に構築し,その表現に不変量の集合を直接組み込む汎用的手法を導入する。
我々は,ゼロショット縫合設定において,一貫した遅延類似性および下流性能向上を観察し,分類および再構成タスクに対するソリューションの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-02T13:55:38Z) - Equivariant Disentangled Transformation for Domain Generalization under
Combination Shift [91.38796390449504]
ドメインとラベルの組み合わせは、トレーニング中に観察されるのではなく、テスト環境に現れる。
我々は、同型の概念、同値性、および整合性の定義に基づく結合シフト問題の一意的な定式化を提供する。
論文 参考訳(メタデータ) (2022-08-03T12:31:31Z) - Curvature-informed multi-task learning for graph networks [56.155331323304]
最先端のグラフニューラルネットワークは、複数の特性を同時に予測しようとする。
この現象の潜在的な説明として、各特性の損失面の曲率が大きく異なり、非効率な学習につながる可能性がある。
論文 参考訳(メタデータ) (2022-08-02T18:18:41Z) - Linear Connectivity Reveals Generalization Strategies [54.947772002394736]
微調整されたモデルのいくつかは、それらの間の線形経路における損失を増大させる大きな障壁を持つ。
テスト損失面上で線形に接続されているが、クラスタ外のモデルから切り離されている異なるモデルのクラスタが見つかる。
我々の研究は、損失面の幾何学がモデルを異なる関数へと導く方法を示している。
論文 参考訳(メタデータ) (2022-05-24T23:43:02Z) - Tensor Component Analysis for Interpreting the Latent Space of GANs [41.020230946351816]
本稿では,GANの潜在空間における解釈可能な方向を求める問題に対処する。
提案手法では,テンソルの個々のモードに対応する線形編集と,それらの間の乗法的相互作用をモデル化する非線形編集が可能である。
実験により, 前者は幾何に基づく変換から, 後者は拡張可能な変換を生成できることを示す。
論文 参考訳(メタデータ) (2021-11-23T09:14:39Z) - Equivariant vector field network for many-body system modeling [65.22203086172019]
Equivariant Vector Field Network (EVFN) は、新しい同変層と関連するスカラー化およびベクトル化層に基づいて構築されている。
シミュレーションされたニュートン力学系の軌跡を全観測データと部分観測データで予測する手法について検討した。
論文 参考訳(メタデータ) (2021-10-26T14:26:25Z) - A Differential Geometry Perspective on Orthogonal Recurrent Models [56.09491978954866]
我々は微分幾何学からのツールと洞察を用いて、直交rnnの新しい視点を提供する。
直交RNNは、発散自由ベクトル場の空間における最適化と見なすことができる。
この観測に動機づけられて、ベクトル場全体の空間にまたがる新しいリカレントモデルの研究を行う。
論文 参考訳(メタデータ) (2021-02-18T19:39:22Z) - Invertible Generative Modeling using Linear Rational Splines [11.510009152620666]
正規化フローは、可逆写像の集合を通して任意の確率分布をモデル化しようとする。
最初のフロー設計ではアフィン変換に基づく結合層マッピングが用いられた。
アフィン変換の代替として機能するイントレピッドは注目されている。
論文 参考訳(メタデータ) (2020-01-15T08:05:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。