Fugu-MT 論文翻訳(概要): Contextual Counting: A Mechanistic Study of Transformers on a Quantitative Task

論文の概要: Contextual Counting: A Mechanistic Study of Transformers on a Quantitative Task

arxiv url: http://arxiv.org/abs/2406.02585v1
Date: Thu, 30 May 2024 20:52:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 23:49:24.589197
Title: Contextual Counting: A Mechanistic Study of Transformers on a Quantitative Task
Title（参考訳）: 文脈カウント:定量的タスクにおける変圧器の力学的検討
Authors: Siavash Golkar, Alberto Bietti, Mariel Pettee, Michael Eickenberg, Miles Cranmer, Keiya Hirashima, Geraud Krawezik, Nicholas Lourie, Michael McCabe, Rudy Morel, Ruben Ohana, Liam Holden Parker, Bruno Régaldo-Saint Blancard, Kyunghyun Cho, Shirley Ho,
Abstract要約: 本稿では,トランスフォーマーの理解を深めるための新しい玩具問題である文脈カウントタスクを紹介する。因果的および非因果的トランスフォーマーアーキテクチャを用いた理論的および経験的解析を行った。
参考スコア（独自算出の注目度）: 40.85615657802704
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformers have revolutionized machine learning across diverse domains, yet understanding their behavior remains crucial, particularly in high-stakes applications. This paper introduces the contextual counting task, a novel toy problem aimed at enhancing our understanding of Transformers in quantitative and scientific contexts. This task requires precise localization and computation within datasets, akin to object detection or region-based scientific analysis. We present theoretical and empirical analysis using both causal and non-causal Transformer architectures, investigating the influence of various positional encodings on performance and interpretability. In particular, we find that causal attention is much better suited for the task, and that no positional embeddings lead to the best accuracy, though rotary embeddings are competitive and easier to train. We also show that out of distribution performance is tightly linked to which tokens it uses as a bias term.
Abstract（参考訳）: トランスフォーマーはさまざまなドメインにわたって機械学習に革命をもたらしたが、その振る舞いを理解することは依然として重要であり、特に高度なアプリケーションではそうである。本稿では,定量的・科学的文脈におけるトランスフォーマーの理解を高めることを目的とした,新しい玩具問題である文脈カウントタスクを紹介する。このタスクは、オブジェクト検出や領域ベースの科学分析のようなデータセット内の正確なローカライズと計算を必要とする。本稿では,因果的および非因果的トランスフォーマーアーキテクチャを用いた理論的,実証的な解析を行い,様々な位置符号化が性能と解釈可能性に与える影響について検討する。特に, 因果的注意がタスクに適しており, 位置埋め込みが最良となることはないが, 回転埋め込みは競争力があり, 訓練が容易である。また,分布性能のうちどのトークンをバイアス項として使用するかが強く関連していることも示している。

関連論文リスト

Provable In-Context Learning of Nonlinear Regression with Transformers [58.018629320233174]
In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。最近の研究はICLの背後にあるトレーニングダイナミクスを積極的に探求している。本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
論文参考訳（メタデータ） (2025-07-28T00:09:28Z)
Transformers for Learning on Noisy and Task-Level Manifolds: Approximation and Generalization Insights [47.62295798627317]
この研究は、多様体上のノイズの多い入力データを含む回帰タスクにおける変換器の性能を分析することによって理論的基礎を確立する。我々は、多様体の内在次元に決定的に依存する近似と一般化誤差を証明した。この結果から,入力データに高次元ノイズが伴う場合においても,学習課題における低複雑さ構造を活用できることが示唆された。
論文参考訳（メタデータ） (2025-05-06T05:41:46Z)
Enhancing Transformers for Generalizable First-Order Logical Entailment [51.04944136538266]
本稿では,変圧器のパラメータ化知識を用いた一階論理推論能力について検討する。変圧器の1次推論能力は、その1次論理的推論を実行する能力を通じて評価される。変換器における一階述語論理包含を一般化する能力を高めるため,より洗練された論理型アーキテクチャTEGAを提案する。
論文参考訳（メタデータ） (2025-01-01T07:05:32Z)
Positional Attention: Expressivity and Learnability of Algorithmic Computation [6.181408276896225]
この研究は、アルゴリズム実行におけるトランスフォーマーにおける注意の役割をよりよく理解することを目的としている。位置対応変換器(位置対応変換器)は並列計算モデルと同じ表現性を持つことを示す。パラメータノルムにより良い理論的依存を示す一方で、特定のタスクはより多くの層を必要とする可能性がある。
論文参考訳（メタデータ） (2024-10-02T15:55:08Z)
SoK: Leveraging Transformers for Malware Analysis [8.999677363643224]
トランスフォーマーの導入は、生成AIの基礎となるトランスフォーマーとして、AI研究と応用にとって重要なブレークスルーとなった。トランスフォーマーのための有望なアプリケーションドメインはサイバーセキュリティ、特にマルウェアドメイン分析である。本論文は,マルウェア解析用に設計されたトランスフォーマーベースのアプローチを包括的に分析することを目的としている。
論文参考訳（メタデータ） (2024-05-27T14:14:07Z)
A Mechanistic Analysis of a Transformer Trained on a Symbolic Multi-Step Reasoning Task [14.921790126851008]
合成推論タスクで訓練された変圧器の包括的力学解析について述べる。モデルがタスクの解決に使用する解釈可能なメカニズムのセットを特定し,相関的および因果的証拠を用いた結果の検証を行った。
論文参考訳（メタデータ） (2024-02-19T08:04:25Z)
In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文参考訳（メタデータ） (2023-10-08T17:55:33Z)
A Comprehensive Survey on Applications of Transformers for Deep Learning Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。 Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文参考訳（メタデータ） (2023-06-11T23:13:51Z)
How Do Transformers Learn Topic Structure: Towards a Mechanistic Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文参考訳（メタデータ） (2023-03-07T21:42:17Z)
Systematic Generalization and Emergent Structures in Transformers Trained on Structured Tasks [6.525090891505941]
我々は、因果変換器が、コピー、ソート、階層的な構成を含む一連のアルゴリズムタスクを実行する方法を示す。両層変換器は多層問題に対する一般化可能な解法を学習し,系統的タスク分解の兆候を現示する。これらの結果は、トランスフォーマーモデルが複雑な決定を再利用可能なマルチレベルポリシーに分解する方法について、重要な洞察を与えてくれる。
論文参考訳（メタデータ） (2022-10-02T00:46:36Z)
Improving Attention-Based Interpretability of Text Classification Transformers [7.027858121801477]
テキスト分類における変圧器の注意に基づく解釈可能性手法の有効性について検討する。適切な設定で、最新技術に匹敵する結果が得られるようなタスクに注意を向けることが示される。
論文参考訳（メタデータ） (2022-09-22T09:19:22Z)
On the validity of pre-trained transformers for natural language processing in the software engineering domain [78.32146765053318]
ソフトウェア工学データを用いて訓練されたBERT変換器モデルと一般領域データに基づく変換器との比較を行った。ソフトウェアエンジニアリングのコンテキストを理解するために必要なタスクに対しては,ソフトウェアエンジニアリングデータの事前学習が重要であることを示す。
論文参考訳（メタデータ） (2021-09-10T08:46:31Z)
On the Computational Power of Transformers and its Implications in Sequence Modeling [10.497742214344855]
特に、位置エンコーディング、アテンションヘッド、残差接続、フィードフォワードネットワークといったトランスフォーマーにおける様々なコンポーネントの役割は明確ではない。バニラ変換器がチューリング完全であることを示すための代替的で単純な証明を提供する。さらに、ネットワークのチューリング完全性に対する各コンポーネントの必要性を分析する。
論文参考訳（メタデータ） (2020-06-16T16:27:56Z)
Robustness Verification for Transformers [165.25112192811764]
我々はトランスフォーマーのための最初のロバスト性検証アルゴリズムを開発した。提案手法で計算したロバスト性境界は, 素粒子間境界伝播法で計算したロバスト性境界よりもかなり厳密である。これらの境界はまた、感情分析における異なる単語の重要性を常に反映しているトランスフォーマーの解釈にも光を当てている。
論文参考訳（メタデータ） (2020-02-16T17:16:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。