論文の概要: Contextual Counting: A Mechanistic Study of Transformers on a Quantitative Task
- arxiv url: http://arxiv.org/abs/2406.02585v1
- Date: Thu, 30 May 2024 20:52:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 23:49:24.589197
- Title: Contextual Counting: A Mechanistic Study of Transformers on a Quantitative Task
- Title(参考訳): 文脈カウント:定量的タスクにおける変圧器の力学的検討
- Authors: Siavash Golkar, Alberto Bietti, Mariel Pettee, Michael Eickenberg, Miles Cranmer, Keiya Hirashima, Geraud Krawezik, Nicholas Lourie, Michael McCabe, Rudy Morel, Ruben Ohana, Liam Holden Parker, Bruno Régaldo-Saint Blancard, Kyunghyun Cho, Shirley Ho,
- Abstract要約: 本稿では,トランスフォーマーの理解を深めるための新しい玩具問題である文脈カウントタスクを紹介する。
因果的および非因果的トランスフォーマーアーキテクチャを用いた理論的および経験的解析を行った。
- 参考スコア(独自算出の注目度): 40.85615657802704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have revolutionized machine learning across diverse domains, yet understanding their behavior remains crucial, particularly in high-stakes applications. This paper introduces the contextual counting task, a novel toy problem aimed at enhancing our understanding of Transformers in quantitative and scientific contexts. This task requires precise localization and computation within datasets, akin to object detection or region-based scientific analysis. We present theoretical and empirical analysis using both causal and non-causal Transformer architectures, investigating the influence of various positional encodings on performance and interpretability. In particular, we find that causal attention is much better suited for the task, and that no positional embeddings lead to the best accuracy, though rotary embeddings are competitive and easier to train. We also show that out of distribution performance is tightly linked to which tokens it uses as a bias term.
- Abstract(参考訳): トランスフォーマーはさまざまなドメインにわたって機械学習に革命をもたらしたが、その振る舞いを理解することは依然として重要であり、特に高度なアプリケーションではそうである。
本稿では,定量的・科学的文脈におけるトランスフォーマーの理解を高めることを目的とした,新しい玩具問題である文脈カウントタスクを紹介する。
このタスクは、オブジェクト検出や領域ベースの科学分析のようなデータセット内の正確なローカライズと計算を必要とする。
本稿では,因果的および非因果的トランスフォーマーアーキテクチャを用いた理論的,実証的な解析を行い,様々な位置符号化が性能と解釈可能性に与える影響について検討する。
特に, 因果的注意がタスクに適しており, 位置埋め込みが最良となることはないが, 回転埋め込みは競争力があり, 訓練が容易である。
また,分布性能のうちどのトークンをバイアス項として使用するかが強く関連していることも示している。
関連論文リスト
- Enhancing Transformers for Generalizable First-Order Logical Entailment [51.04944136538266]
本稿では,変圧器のパラメータ化知識を用いた一階論理推論能力について検討する。
変圧器の1次推論能力は、その1次論理的推論を実行する能力を通じて評価される。
変換器における一階述語論理包含を一般化する能力を高めるため,より洗練された論理型アーキテクチャTEGAを提案する。
論文 参考訳(メタデータ) (2025-01-01T07:05:32Z) - Positional Attention: Expressivity and Learnability of Algorithmic Computation [6.181408276896225]
この研究は、アルゴリズム実行におけるトランスフォーマーにおける注意の役割をよりよく理解することを目的としている。
位置対応変換器(位置対応変換器)は並列計算モデルと同じ表現性を持つことを示す。
パラメータノルムにより良い理論的依存を示す一方で、特定のタスクはより多くの層を必要とする可能性がある。
論文 参考訳(メタデータ) (2024-10-02T15:55:08Z) - SoK: Leveraging Transformers for Malware Analysis [8.999677363643224]
トランスフォーマーの導入は、生成AIの基礎となるトランスフォーマーとして、AI研究と応用にとって重要なブレークスルーとなった。
トランスフォーマーのための有望なアプリケーションドメインはサイバーセキュリティ、特にマルウェアドメイン分析である。
本論文は,マルウェア解析用に設計されたトランスフォーマーベースのアプローチを包括的に分析することを目的としている。
論文 参考訳(メタデータ) (2024-05-27T14:14:07Z) - A Mechanistic Analysis of a Transformer Trained on a Symbolic Multi-Step Reasoning Task [14.921790126851008]
合成推論タスクで訓練された変圧器の包括的力学解析について述べる。
モデルがタスクの解決に使用する解釈可能なメカニズムのセットを特定し,相関的および因果的証拠を用いた結果の検証を行った。
論文 参考訳(メタデータ) (2024-02-19T08:04:25Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - A Comprehensive Survey on Applications of Transformers for Deep Learning
Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。
Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (2023-06-11T23:13:51Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Improving Attention-Based Interpretability of Text Classification
Transformers [7.027858121801477]
テキスト分類における変圧器の注意に基づく解釈可能性手法の有効性について検討する。
適切な設定で、最新技術に匹敵する結果が得られるようなタスクに注意を向けることが示される。
論文 参考訳(メタデータ) (2022-09-22T09:19:22Z) - On the validity of pre-trained transformers for natural language
processing in the software engineering domain [78.32146765053318]
ソフトウェア工学データを用いて訓練されたBERT変換器モデルと一般領域データに基づく変換器との比較を行った。
ソフトウェアエンジニアリングのコンテキストを理解するために必要なタスクに対しては,ソフトウェアエンジニアリングデータの事前学習が重要であることを示す。
論文 参考訳(メタデータ) (2021-09-10T08:46:31Z) - On the Computational Power of Transformers and its Implications in
Sequence Modeling [10.497742214344855]
特に、位置エンコーディング、アテンションヘッド、残差接続、フィードフォワードネットワークといったトランスフォーマーにおける様々なコンポーネントの役割は明確ではない。
バニラ変換器がチューリング完全であることを示すための代替的で単純な証明を提供する。
さらに、ネットワークのチューリング完全性に対する各コンポーネントの必要性を分析する。
論文 参考訳(メタデータ) (2020-06-16T16:27:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。