Fugu-MT 論文翻訳(概要): Traveling Words: A Geometric Interpretation of Transformers

論文の概要: Traveling Words: A Geometric Interpretation of Transformers

arxiv url: http://arxiv.org/abs/2309.07315v2
Date: Tue, 19 Sep 2023 00:34:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-20 18:37:56.719144
Title: Traveling Words: A Geometric Interpretation of Transformers
Title（参考訳）: 移動語:トランスフォーマーの幾何学的解釈
Authors: Raul Molina
Abstract要約: トランス操作の内部メカニズムを解明する新しい幾何学的視点を導入する。我々の主な貢献は、層正規化が潜在特徴を超球面に閉じ込める方法を示し、その後、この表面における単語の意味表現を形作ることを可能にすることである。本稿では,超球面に沿った単語粒子の軌跡をモデル化するプロセスとして,トランスフォーマーの直感的な理解を示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformers have significantly advanced the field of natural language processing, but comprehending their internal mechanisms remains a challenge. In this paper, we introduce a novel geometric perspective that elucidates the inner mechanisms of transformer operations. Our primary contribution is illustrating how layer normalization confines the latent features to a hyper-sphere, subsequently enabling attention to mold the semantic representation of words on this surface. This geometric viewpoint seamlessly connects established properties such as iterative refinement and contextual embeddings. We validate our insights by probing a pre-trained 124M parameter GPT-2 model. Our findings reveal clear query-key attention patterns in early layers and build upon prior observations regarding the subject-specific nature of attention heads at deeper layers. Harnessing these geometric insights, we present an intuitive understanding of transformers, depicting them as processes that model the trajectory of word particles along the hyper-sphere.
Abstract（参考訳）: トランスフォーマーは自然言語処理の分野を著しく進歩させたが、内部機構の解明は依然として課題である。本稿では,変圧器操作の内部機構を解明する新しい幾何学的視点を提案する。我々の主な貢献は、層正規化が潜在特徴を超球面に閉じ込める方法を示し、その後、この表面における単語の意味表現に注意を向けることである。この幾何学的視点は、反復的洗練や文脈埋め込みのような確立された性質をシームレスに結合する。我々は,事前学習した114mパラメータgpt-2モデルを用いて知見を検証する。本研究は,初期層における問合せキーの注意パターンを明らかにし,より深い層における注目の主観的特徴に関する先行観測に基づいて構築した。これらの幾何学的洞察を生かし、超球面に沿った単語粒子の軌跡をモデル化する過程として、トランスフォーマーの直感的な理解を示す。

関連論文リスト

Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文参考訳（メタデータ） (2025-06-28T01:46:36Z)
RiemannFormer: A Framework for Attention in Curved Spaces [0.43512163406552]
この研究は、トランスフォーマーベースのアーキテクチャのさらなる可能性を解き放つための洞察を提供する努力である。主な動機の1つは、変圧器における注意機構の幾何学的解釈を提供することである。
論文参考訳（メタデータ） (2025-06-09T03:56:18Z)
Geometry-Editable and Appearance-Preserving Object Compositon [67.98806888489385]
汎用オブジェクト合成(GOC)は、対象オブジェクトを望まれる幾何学的性質を持つ背景シーンにシームレスに統合することを目的としている。近年のアプローチは意味的埋め込みを導出し、それらを高度な拡散モデルに統合し、幾何学的に編集可能な生成を可能にする。本稿では,まずセマンティックな埋め込みを活用して,所望の幾何学的変換を暗黙的にキャプチャするDistangled Geometry-editable and Outearance-Preserving Diffusionモデルを提案する。
論文参考訳（メタデータ） (2025-05-27T09:05:28Z)
A Unified Perspective on the Dynamics of Deep Transformers [24.094975798576783]
深部変圧器によるデータ異方性の進化について検討する。我々は、非正規化離散ケースにおいて、以前の結果と平行なクラスタリング現象を強調した。
論文参考訳（メタデータ） (2025-01-30T13:04:54Z)
Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文参考訳（メタデータ） (2024-10-22T21:30:01Z)
Analyzing Deep Transformer Models for Time Series Forecasting via Manifold Learning [4.910937238451485]
トランスフォーマーモデルは、自然言語処理やコンピュータビジョンといった様々な領域において、一貫して顕著な成果を上げてきた。これらのモデルをよりよく理解するための継続的な研究努力にもかかわらず、この分野はいまだに包括的な理解を欠いている。画像やテキスト情報とは異なり、時系列データは解釈し分析することがより困難である。
論文参考訳（メタデータ） (2024-10-17T17:32:35Z)
Relative Representations: Topological and Geometric Perspectives [53.88896255693922]
相対表現はゼロショットモデルの縫合に対する確立されたアプローチである。相対変換において正規化手順を導入し、非等方的再スケーリングや置換に不変となる。第二に、クラス内のクラスタリングを促進するトポロジカル正規化損失である、微調整された相対表現におけるトポロジカルデシフィケーションの展開を提案する。
論文参考訳（メタデータ） (2024-09-17T08:09:22Z)
Clustering in pure-attention hardmax transformers and its role in sentiment analysis [0.0]
ハードマックス自己アテンションと正規化サブ層を有する変圧器の挙動を, 層数が無限大になる傾向があるため, 厳密に特徴づける。変換器は、リーダーと呼ばれる特別な点によって決定されるクラスター平衡にインプット的に収束することを示す。そして、この理論的理解を利用して、完全に解釈可能なトランスフォーマーモデルを用いて、言語処理から感情分析問題を解く。
論文参考訳（メタデータ） (2024-06-26T16:13:35Z)
Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文参考訳（メタデータ） (2024-05-10T17:11:31Z)
Transformers Learn Nonlinear Features In Context: Nonconvex Mean-field Dynamics on the Attention Landscape [40.78854925996]
Transformerアーキテクチャに基づく大規模言語モデルは、コンテキストで学習できる印象的な能力を示している。共通非線形表現や特徴写像は、文脈内学習の力を高めるために利用できることを示す。
論文参考訳（メタデータ） (2024-02-02T09:29:40Z)
Curve Your Attention: Mixed-Curvature Transformers for Graph Representation Learning [77.1421343649344]
本稿では,一定曲率空間の積を完全に操作するトランスフォーマーの一般化を提案する。また、非ユークリッド注意に対するカーネル化されたアプローチを提供し、ノード数とエッジ数に線形に時間とメモリコストでモデルを実行できるようにします。
論文参考訳（メタデータ） (2023-09-08T02:44:37Z)
VISIT: Visualizing and Interpreting the Semantic Information Flow of Transformers [45.42482446288144]
近年の解釈可能性の進歩は、トランスフォーマーベース言語モデルの重みと隠れ状態を語彙に投影できることを示唆している。 LMアテンションヘッドとメモリ値、モデルが与えられた入力を処理しながら動的に生成し、リコールするベクトルについて検討する。対話型フローグラフとして生成事前学習変換器(GPT)の前方通過を可視化するツールを作成する。
論文参考訳（メタデータ） (2023-05-22T19:04:56Z)
How Do Transformers Learn Topic Structure: Towards a Mechanistic Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文参考訳（メタデータ） (2023-03-07T21:42:17Z)
Toward a Visual Concept Vocabulary for GAN Latent Space [74.12447538049537]
本稿では,GANの潜在空間で表現される原始視覚概念のオープンエンド語彙を構築するための新しい手法を提案する。提案手法は, 層選択性に基づく知覚的正当方向の自動識別, 自由形, 構成的自然言語記述による人為的アノテーションの3つの要素から構成される。実験により、我々のアプローチで学んだ概念は信頼性があり、構成可能であることが示され、クラス、コンテキスト、オブザーバをまたいで一般化される。
論文参考訳（メタデータ） (2021-10-08T17:58:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。