論文の概要: Linear Relational Decoding of Morphology in Language Models
- arxiv url: http://arxiv.org/abs/2507.14640v1
- Date: Sat, 19 Jul 2025 14:35:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.980988
- Title: Linear Relational Decoding of Morphology in Language Models
- Title(参考訳): 言語モデルにおける形態素の線形関係復号
- Authors: Eric Xia, Jugal Kalita,
- Abstract要約: 二つのアフィン近似は、ある種の対象物関係に対する変圧器の計算によい近似であることがわかった。
s が対象トークンの中間層表現であり、W がモデル微分から導出される線形変換 Ws は、多くの関係において最終対象状態の正確な再現も可能であることを示す。
- 参考スコア(独自算出の注目度): 7.826806223782053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A two-part affine approximation has been found to be a good approximation for transformer computations over certain subject object relations. Adapting the Bigger Analogy Test Set, we show that the linear transformation Ws, where s is a middle layer representation of a subject token and W is derived from model derivatives, is also able to accurately reproduce final object states for many relations. This linear technique is able to achieve 90% faithfulness on morphological relations, and we show similar findings multi-lingually and across models. Our findings indicate that some conceptual relationships in language models, such as morphology, are readily interpretable from latent space, and are sparsely encoded by cross-layer linear transformations.
- Abstract(参考訳): 二つのアフィン近似は、ある種の対象物関係に対する変圧器の計算によい近似であることがわかった。
ビッグジェアナロジーテストセットを適用すると、s が対象トークンの中間層表現であり、W はモデル微分から導出される線形変換 Ws が、多くの関係において最終対象状態の正確な再現を可能にすることを示す。
この線形手法は, 形態的関係に90%の忠実さを達成でき, 同様の知見を多言語・多言語で示すことができる。
この結果から,形態学などの言語モデルにおける概念的関係は潜時空間から容易に解釈可能であり,層間線形変換によってわずかに符号化されることが示唆された。
関連論文リスト
- Joint Fine-tuning and Conversion of Pretrained Speech and Language Models towards Linear Complexity [11.302828987873497]
本稿では,変換器モデルを線形時間置換器に変換し,目標タスクに微調整するクロスアーキテクチャ層蒸留(CALD)手法を提案する。
そこで本研究では,CALDが元のモデルの結果を効果的に回収できることを示す。
論文 参考訳(メタデータ) (2024-10-09T13:06:43Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Shape Arithmetic Expressions: Advancing Scientific Discovery Beyond Closed-Form Equations [56.78271181959529]
GAM(Generalized Additive Models)は、変数とターゲットの間の非線形関係をキャプチャできるが、複雑な特徴相互作用をキャプチャすることはできない。
本稿では,GAMのフレキシブルな形状関数と,数学的表現に見られる複雑な特徴相互作用を融合させる形状表現算術(SHARE)を提案する。
また、標準制約を超えた表現の透明性を保証するSHAREを構築するための一連のルールを設計する。
論文 参考訳(メタデータ) (2024-04-15T13:44:01Z) - On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - Location Sensitive Embedding for Knowledge Graph Reasoning [0.0]
翻訳距離モデルの主な課題は、グラフ内の「頭部」と「尾」の実体を効果的に区別できないことである。
この問題に対処するため,新しい位置感応型埋め込み法 (LSE) を開発した。
LSEは、リレーショナルなマッピングを使用してヘッダーを革新的に修正し、リレーショナルトランスフォーメーションを単なる翻訳よりもリレーショナルトランスフォーメーションとして概念化する。
より合理化された変種 LSEd も提案され、実際の効率を高めるために変換に対角行列を用いる。
論文 参考訳(メタデータ) (2023-12-01T22:35:19Z) - Probabilistic Transformer: A Probabilistic Dependency Model for
Contextual Word Representation [52.270712965271656]
本稿では,文脈表現の新しいモデルを提案する。
モデルのグラフは変換器に似ており、依存関係と自己意識の対応性がある。
実験により,本モデルが小型・中型データセットのトランスフォーマーと競合することを示す。
論文 参考訳(メタデータ) (2023-11-26T06:56:02Z) - Flow Factorized Representation Learning [109.51947536586677]
本稿では、異なる入力変換を定義する潜在確率パスの別個のセットを規定する生成モデルを提案する。
本モデルは,ほぼ同変モデルに近づきながら,標準表現学習ベンチマークにおいて高い確率を達成することを示す。
論文 参考訳(メタデータ) (2023-09-22T20:15:37Z) - Linearity of Relation Decoding in Transformer Language Models [82.47019600662874]
トランスフォーマー言語モデル(LM)で符号化された知識の多くは、関係性の観点から表現することができる。
関係のサブセットに対して、この計算は対象表現上の1つの線形変換によってよく近似されることを示す。
論文 参考訳(メタデータ) (2023-08-17T17:59:19Z) - Transformer Grammars: Augmenting Transformer Language Models with
Syntactic Inductive Biases at Scale [31.293175512404172]
Transformer Grammarsは、Transformerの表現力、スケーラビリティ、強力なパフォーマンスを組み合わせたTransformer言語モデルのクラスです。
また, Transformer Grammars は, 構文に敏感な言語モデリング評価指標において, 各種の強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2022-03-01T17:22:31Z) - STaR: Knowledge Graph Embedding by Scaling, Translation and Rotation [20.297699026433065]
ビリニア法は知識グラフ埋め込み(KGE)において主流であり、実体と関係性の低次元表現を学習することを目的としている。
以前の研究では、主に非可換性のような6つの重要なパターンが発見されている。
上述の2つの部分からなるバイリニアモデルスケーリング翻訳・回転(STaR)を提案する。
論文 参考訳(メタデータ) (2022-02-15T02:06:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。