論文の概要: GPT-2 Through the Lens of Vector Symbolic Architectures
- arxiv url: http://arxiv.org/abs/2412.07947v1
- Date: Tue, 10 Dec 2024 22:20:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:03:44.759940
- Title: GPT-2 Through the Lens of Vector Symbolic Architectures
- Title(参考訳): GPT-2 ベクトルシンボリックアーキテクチャのレンズを通して
- Authors: Johannes Knittel, Tushaar Gangavarapu, Hendrik Strobelt, Hanspeter Pfister,
- Abstract要約: 本稿では,デコーダのみのトランスアーキテクチャとベクトル記号アーキテクチャ(VSA)の類似性について検討する。
これらの原理は、実際の神経重みのかなりの部分を説明するのに役立ちます。
- 参考スコア(独自算出の注目度): 36.744603771123344
- License:
- Abstract: Understanding the general priniciples behind transformer models remains a complex endeavor. Experiments with probing and disentangling features using sparse autoencoders (SAE) suggest that these models might manage linear features embedded as directions in the residual stream. This paper explores the resemblance between decoder-only transformer architecture and vector symbolic architectures (VSA) and presents experiments indicating that GPT-2 uses mechanisms involving nearly orthogonal vector bundling and binding operations similar to VSA for computation and communication between layers. It further shows that these principles help explain a significant portion of the actual neural weights.
- Abstract(参考訳): 変圧器モデルの背後にある一般的な原理を理解することは、依然として複雑な試みである。
スパースオートエンコーダ(SAE)を用いた探索・解離実験により、これらのモデルが残留ストリームの方向として埋め込まれた線形特徴を管理する可能性が示唆された。
本稿では,デコーダのみの変圧器アーキテクチャとベクトル記号アーキテクチャ(VSA)の類似性について検討し,GPT-2がVSAに類似したほぼ直交するベクトルバンドルと結合操作を含む機構を用いて層間通信を行うことを示す実験を行った。
さらに、これらの原理は実際の神経重みのかなりの部分を説明するのに役立ちます。
関連論文リスト
- Polyhedra Encoding Transformers: Enhancing Diffusion MRI Analysis Beyond Voxel and Volumetric Embedding [9.606654786275902]
本稿では,球面信号の処理に特化して設計されたdMRI用ポリヘドラ変換器(PE-Transformer)を提案する。
提案手法では, 所定の方向から信号を再サンプリングするために, アイコサヘドの単位球を投影する。この再サンプリングされた信号は, アイコサヘドの方向を反映する情報を含むトランスフォーマーエンコーダによって処理され, 埋め込みに変換される。
論文 参考訳(メタデータ) (2025-01-23T03:32:52Z) - Unified CNNs and transformers underlying learning mechanism reveals multi-head attention modus vivendi [0.0]
畳み込みニューラルネットワーク(CNN)は、層に沿って進行する入力画像の短距離相関を評価する。
視覚変換器(ViT)アーキテクチャは、完全に接続された層からなる繰り返し変換器エンコーダを用いて、長距離相関を評価する。
本研究は,CNNとViTアーキテクチャが基盤となる学習機構の統一に由来することを示す。
論文 参考訳(メタデータ) (2025-01-22T14:19:48Z) - Rethinking Decoders for Transformer-based Semantic Segmentation: A Compression Perspective [3.218600495900291]
セマンティックセグメンテーションと圧縮の間には根本的な関係があることを論じる。
PrIncipled SemantiC SegemenTation(DEPICT)のためのホワイトボックス完全注意型Decoderを考案した。
ADE20Kで行った実験では、DEPICTはブラックボックスであるSegmenterよりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-05T12:10:02Z) - Hierarchical Transformer for Electrocardiogram Diagnosis [1.4124476944967472]
トランスフォーマーは元々NLPやコンピュータビジョンで顕著だったが、現在ではECG信号解析に適応している。
本稿では,モデルを複数のステージに分割する階層型トランスフォーマーアーキテクチャを提案する。
分類トークンは特徴尺度にまたがって情報を集約し、変換器の異なる段階間の相互作用を容易にする。
論文 参考訳(メタデータ) (2024-11-01T17:28:03Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Exploring Structure-aware Transformer over Interaction Proposals for
Human-Object Interaction Detection [119.93025368028083]
我々は、新しいトランスフォーマー型ヒューマンオブジェクトインタラクション(HOI)検出器、すなわち、インタラクション提案(STIP)による構造認識トランスフォーマーを設計する。
STIPはHOIセット予測の過程を、まず相互作用の提案生成を行い、次に構造認識変換器を介して非パラメトリック相互作用提案をHOI予測に変換する2つのフェーズに分解する。
構造対応トランスフォーマーは、相互作用提案間の相同的意味構造を付加してバニラトランスフォーマーをアップグレードし、各相互作用提案内の人間・物体の局所的空間構造を付加し、HOIを強化する。
論文 参考訳(メタデータ) (2022-06-13T16:21:08Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Video Super-Resolution Transformer [85.11270760456826]
ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。
近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが人気を集めている。
本稿では,空間的・時間的畳み込み型自己認識層を理論的に理解し,局所性情報を活用する。
論文 参考訳(メタデータ) (2021-06-12T20:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。