Fugu-MT 論文翻訳(概要): Counting in Small Transformers: The Delicate Interplay between Attention and Feed-Forward Layers

論文の概要: Counting in Small Transformers: The Delicate Interplay between Attention and Feed-Forward Layers

arxiv url: http://arxiv.org/abs/2407.11542v2
Date: Tue, 8 Oct 2024 08:49:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 21:10:26.182404
Title: Counting in Small Transformers: The Delicate Interplay between Attention and Feed-Forward Layers
Title（参考訳）: 小形変圧器の計数:注意層とフィードフォワード層との詳細な相互作用
Authors: Freya Behrens, Luca Biggio, Lenka Zdeborová,
Abstract要約: アーキテクチャ設計の選択がトランスフォーマーが実装し学習できるソリューションの空間にどのように影響するかを検討する。小型変圧器が理論的に実装できる2つの異なる計数戦略を特徴付ける。簡単な設定であっても、モデル設計のわずかなバリエーションは、トランスフォーマーが学習するソリューションに大きな変化をもたらす可能性がある。
参考スコア（独自算出の注目度）: 16.26331213222281
License: http://creativecommons.org/licenses/by/4.0/
Abstract: How do different architectural design choices influence the space of solutions that a transformer can implement and learn? How do different components interact with each other to shape the model's hypothesis space? We investigate these questions by characterizing the solutions simple transformer blocks can implement when challenged to solve the histogram task -- counting the occurrences of each item in an input sequence from a fixed vocabulary. Despite its apparent simplicity, this task exhibits a rich phenomenology: our analysis reveals a strong inter-dependence between the model's predictive performance and the vocabulary and embedding sizes, the token-mixing mechanism and the capacity of the feed-forward block. In this work, we characterize two different counting strategies that small transformers can implement theoretically: relation-based and inventory-based counting, the latter being less efficient in computation and memory. The emergence of either strategy is heavily influenced by subtle synergies among hyperparameters and components, and depends on seemingly minor architectural tweaks like the inclusion of softmax in the attention mechanism. By introspecting models trained on the histogram task, we verify the formation of both mechanisms in practice. Our findings highlight that even in simple settings, slight variations in model design can cause significant changes to the solutions a transformer learns.
Abstract（参考訳）: 異なるアーキテクチャ設計の選択は、トランスフォーマーが実装し学習できるソリューションの空間にどのように影響しますか? モデルの仮説空間を形成するために、異なるコンポーネントはどのように相互作用するのか? 固定語彙からの入力シーケンスにおける各項目の発生を数えて, ヒストグラム課題の解決に挑戦する場合に, 単純変圧器ブロックが実装できる解を特徴付けることにより, これらの疑問を解明する。モデルの性能と語彙と埋め込みサイズ,トークン混合機構,フィードフォワードブロックの容量との間には,強い相互依存性があることを明らかにする。本研究では,小型変圧器が理論的に実装できる2つの異なる計数戦略を特徴付ける。どちらの戦略の出現も、ハイパーパラメータやコンポーネント間の微妙な相乗効果の影響を強く受けており、注意機構にソフトマックスが組み込まれているような、一見小さなアーキテクチャ上の変更に依存している。ヒストグラムタスクで訓練されたモデルのイントロスペクションにより、実際に両方のメカニズムの形成を検証する。簡単な設定であっても、モデル設計のわずかなバリエーションは、トランスフォーマーが学習するソリューションに大きな変化をもたらす可能性がある。

関連論文リスト

Beyond the final layer: Attentive multilayer fusion for vision transformers [45.627646781613386]
タスク関連情報は、最後のレイヤにのみエンコードされるのではなく、ネットワーク階層に分散されていることを示す。視覚変換器のすべての層から動的に表現を融合する注意的探索機構を適用する。このメカニズムは、ターゲットタスクの最も関連性の高いレイヤを特定し、低レベルの構造的キューと高レベルのセマンティック抽象化を組み合わせることを学習する。
論文参考訳（メタデータ） (2026-01-14T09:50:09Z)
A Hierarchical Quantized Tokenization Framework for Task-Adaptive Graph Representation Learning [8.608851021844576]
この研究は、複数のスケールにわたるタスク適応アグリゲーションのための自己重み付け機構を導入する階層的な量子化フレームワークを提案する。ノード分類とリンク予測のためのベンチマークデータセットの実験では、同等の計算予算の下で、強いベースラインよりも一貫した改善が示されている。
論文参考訳（メタデータ） (2025-10-14T10:36:43Z)
What One Cannot, Two Can: Two-Layer Transformers Provably Represent Induction Heads on Any-Order Markov Chains [64.31313691823088]
インコンテキスト学習(ICL)は、入力コンテキストからの情報を活用することで、訓練されたモデルが新しいタスクに適応することを学習するトランスフォーマーの能力である。 1層に1つの頭を持つ2層トランスは、実際に任意の条件k-gramを表現可能であることを示す。
論文参考訳（メタデータ） (2025-08-10T07:03:01Z)
Echo State Transformer: Attention Over Finite Memories [2.118933003468525]
本稿では,逐次データ処理の課題をエレガントに解決するハイブリッドアーキテクチャであるEcho State Transformers(EST)を紹介する。 ESTはTransformerのアテンションメカニズムとReservoir Computingの原則を統合し、固定サイズのウィンドウ分散メモリシステムを作成する。 ESTは5つのカテゴリのうち2つで総合的にランク付けし、分類と異常検出タスクにおける最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2025-06-25T09:56:25Z)
Is Attention Required for Transformer Inference? Explore Function-preserving Attention Replacement [13.38679135071682]
本稿では,事前学習したトランスフォーマーのすべての注意ブロックを学習可能なシーケンス・ツー・シーケンスモジュールに置き換える機能保存型アテンション・リプレースメントフレームワークを提案する。 DeiTビジョントランスファミリ上でFARを検証し、ImageNet上の元のモデルの精度と、パラメータとレイテンシを低減した複数の下流タスクとを一致させることを実証する。
論文参考訳（メタデータ） (2025-05-24T02:23:46Z)
The Morphology-Control Trade-Off: Insights into Soft Robotic Efficiency [15.273412572397799]
本研究では,形態的・制御的複雑度間の相互作用とタスク性能に対する集団的影響について検討する。その結果, 最適性能は形態と制御の整合性に依存することがわかった。本研究は,現実シナリオにおけるソフトロボティクスの実用化に寄与する。
論文参考訳（メタデータ） (2025-03-20T13:19:54Z)
Complexity Control Facilitates Reasoning-Based Compositional Generalization in Transformers [10.206921909332006]
本研究では,コンポジションタスクにおけるトランスフォーマーの振舞いのメカニズムについて検討する。複雑性制御戦略は,分布外(推論に基づく解)を一般化するプリミティブレベルのルールを学習するか,あるいは記憶されたマッピング(メモリベースの解)にのみ依存するかに影響を及ぼす。
論文参考訳（メタデータ） (2025-01-15T02:54:52Z)
Interpreting token compositionality in LLMs: A robustness analysis [10.777646083061395]
Constituent-Aware Pooling (CAP)は、大規模言語モデルが言語構造をどのように処理するかを分析するために設計された方法論である。 CAPは様々なモデルレベルで構成型プールを通してモデル活性化に介入する。
論文参考訳（メタデータ） (2024-10-16T18:10:50Z)
Dynamical Mean-Field Theory of Self-Attention Neural Networks [0.0]
トランスフォーマーベースのモデルは、様々な領域で例外的な性能を示している。動作方法や期待されるダイナミクスについてはほとんど分かっていない。非平衡状態における非対称ホップフィールドネットワークの研究に手法を用いる。
論文参考訳（メタデータ） (2024-06-11T13:29:34Z)
Initialization is Critical to Whether Transformers Fit Composite Functions by Inference or Memorizing [10.206921909332006]
トランスフォーマーは様々なタスクに対して印象的な能力を示してきたが、構成上の問題に対するパフォーマンスは議論の的となっている。本研究では,変圧器が構成課題に対してどのように振る舞うかを考察する。
論文参考訳（メタデータ） (2024-05-08T20:23:24Z)
Unifying Feature and Cost Aggregation with Transformers for Semantic and Visual Correspondence [51.54175067684008]
本稿では,高密度マッチングタスク用に設計されたTransformerベースの積分機能とコスト集約ネットワークを提案する。まず, 特徴集約とコスト集約が異なる特徴を示し, 双方の集約プロセスの司法的利用から生じる実質的な利益の可能性を明らかにした。本フレームワークは意味マッチングのための標準ベンチマークで評価され,また幾何マッチングにも適用された。
論文参考訳（メタデータ） (2024-03-17T07:02:55Z)
Task Indicating Transformer for Task-conditional Dense Predictions [16.92067246179703]
この課題に対処するために,タスク表示変換(TIT)と呼ばれる新しいタスク条件フレームワークを導入する。本手法では,行列分解によるタスク指示行列を組み込んだMix Task Adapterモジュールをトランスフォーマーブロック内に設計する。また,タスク表示ベクトルとゲーティング機構を利用するタスクゲートデコーダモジュールを提案する。
論文参考訳（メタデータ） (2024-03-01T07:06:57Z)
Perceiving Longer Sequences With Bi-Directional Cross-Attention Transformers [13.480259378415505]
BiXTは、計算コストとメモリ消費の観点から、入力サイズと線形にスケールする。 BiXTはPerceiverアーキテクチャにインスパイアされているが、反復的な注意を効率よく双方向のクロスアテンションモジュールに置き換える。効率性とフルトランスフォーマーアーキテクチャの汎用性と性能を組み合わせることで、BiXTはより長いシーケンスを処理できる。
論文参考訳（メタデータ） (2024-02-19T13:38:15Z)
How Do Transformers Learn In-Context Beyond Simple Functions? A Case Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文参考訳（メタデータ） (2023-10-16T17:40:49Z)
Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文参考訳（メタデータ） (2023-06-07T17:59:31Z)
Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文参考訳（メタデータ） (2023-05-29T23:24:14Z)
Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文参考訳（メタデータ） (2022-10-07T17:56:53Z)
Systematic Generalization and Emergent Structures in Transformers Trained on Structured Tasks [6.525090891505941]
我々は、因果変換器が、コピー、ソート、階層的な構成を含む一連のアルゴリズムタスクを実行する方法を示す。両層変換器は多層問題に対する一般化可能な解法を学習し,系統的タスク分解の兆候を現示する。これらの結果は、トランスフォーマーモデルが複雑な決定を再利用可能なマルチレベルポリシーに分解する方法について、重要な洞察を与えてくれる。
論文参考訳（メタデータ） (2022-10-02T00:46:36Z)
Dynamic Spatial Sparsification for Efficient Vision Transformers and Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文参考訳（メタデータ） (2022-07-04T17:00:51Z)
Unveiling Transformers with LEGO: a synthetic reasoning task [23.535488809197787]
我々は、トランスフォーマーアーキテクチャが推論の連鎖に従うことを学ぶ方法について研究する。一部のデータ構造では、訓練されたトランスフォーマーは、推論の連鎖に従う"ショートカット"ソリューションを見つける。このようなショートカットが適切なアーキテクチャ修正やデータ準備によって防止できることが分かりました。
論文参考訳（メタデータ） (2022-06-09T06:30:17Z)
Fast Inference and Transfer of Compositional Task Structures for Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文参考訳（メタデータ） (2022-05-25T10:44:25Z)
CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文参考訳（メタデータ） (2021-12-31T04:37:11Z)
Scalable Gaussian Processes for Data-Driven Design using Big Data with Categorical Factors [14.337297795182181]
ガウス過程(GP)は、大きなデータセット、カテゴリ入力、および複数の応答を調節するのに困難である。本稿では,変分推論によって得られた潜伏変数と関数を用いて,上記の課題を同時に解決するGPモデルを提案する。本手法は三元系酸化物材料の機械学習と多スケール対応機構のトポロジー最適化に有用である。
論文参考訳（メタデータ） (2021-06-26T02:17:23Z)
Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-17T12:30:38Z)
CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。タスクは、ブロックのセットから3D形状を構築することで構成される。
論文参考訳（メタデータ） (2020-10-08T23:01:13Z)
A Trainable Optimal Transport Embedding for Feature Aggregation and its Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文参考訳（メタデータ） (2020-06-22T08:35:58Z)
Learning What Makes a Difference from Counterfactual Examples and Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2020-04-20T02:47:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。