論文の概要: How Does Sequence Modeling Architecture Influence Base Capabilities of Pre-trained Language Models? Exploring Key Architecture Design Principles to Avoid Base Capabilities Degradation
- arxiv url: http://arxiv.org/abs/2505.18522v1
- Date: Sat, 24 May 2025 05:40:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.475679
- Title: How Does Sequence Modeling Architecture Influence Base Capabilities of Pre-trained Language Models? Exploring Key Architecture Design Principles to Avoid Base Capabilities Degradation
- Title(参考訳): 事前訓練された言語モデルの基本能力にシーケンスモデリングアーキテクチャがどのような影響を与えるか? 基本能力の劣化を回避するための鍵となるアーキテクチャ設計原則を探る
- Authors: Xin Lu, Yanyan Zhao, Si Wei, Shijin Wang, Bing Qin, Ting Liu,
- Abstract要約: この研究は、塩基機能に対するシーケンスモデリングアーキテクチャの影響に焦点を当てている。
まず、混合ドメイン事前トレーニング設定では、様々なアーキテクチャ間の基本能力の違いを適切に明らかにできないことを指摘します。
次に、ステートフルシーケンスモデリングアーキテクチャの基本能力を解析し、トランスフォーマーと比較して基盤能力を著しく劣化させることを示した。
- 参考スコア(独自算出の注目度): 37.57021686999279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models represented by the Transformer have been proven to possess strong base capabilities, and the representative self-attention mechanism in the Transformer has become a classic in sequence modeling architectures. Different from the work of proposing sequence modeling architecture to improve the efficiency of attention mechanism, this work focuses on the impact of sequence modeling architectures on base capabilities. Specifically, our concern is: How exactly do sequence modeling architectures affect the base capabilities of pre-trained language models? In this work, we first point out that the mixed domain pre-training setting commonly adopted in existing architecture design works fails to adequately reveal the differences in base capabilities among various architectures. To address this, we propose a limited domain pre-training setting with out-of-distribution testing, which successfully uncovers significant differences in base capabilities among architectures at an early stage. Next, we analyze the base capabilities of stateful sequence modeling architectures, and find that they exhibit significant degradation in base capabilities compared to the Transformer. Then, through a series of architecture component analysis, we summarize a key architecture design principle: A sequence modeling architecture need possess full-sequence arbitrary selection capability to avoid degradation in base capabilities. Finally, we empirically validate this principle using an extremely simple Top-1 element selection architecture and further generalize it to a more practical Top-1 chunk selection architecture. Experimental results demonstrate our proposed sequence modeling architecture design principle and suggest that our work can serve as a valuable reference for future architecture improvements and novel designs.
- Abstract(参考訳): トランスフォーマーで表現される事前訓練された言語モデルは、強力なベース能力を持つことが証明されており、トランスフォーマーにおける代表的自己保持機構は、シーケンスモデリングアーキテクチャにおいて古典的なものとなっている。
注意機構の効率を向上させるためにシーケンスモデリングアーキテクチャを提案する作業と異なり、この研究は塩基機能に対するシーケンスモデリングアーキテクチャの影響に焦点を当てている。
シーケンスモデリングアーキテクチャは、事前訓練された言語モデルのベース機能にどのように影響しますか?
本稿では,既存のアーキテクチャ設計作業で広く採用されている混合ドメイン事前学習設定が,各種アーキテクチャの基盤能力の違いを適切に明らかにできないことを最初に指摘した。
そこで本研究では,分散テストによる限定的なドメイン事前トレーニング設定を提案する。
次に、ステートフルシーケンスモデリングアーキテクチャの基本能力を解析し、トランスフォーマーと比較して基盤能力を著しく劣化させることを示した。
次に、一連のアーキテクチャコンポーネント分析を通じて、重要なアーキテクチャ設計原則を要約する。 シーケンスモデリングアーキテクチャは、基本能力の劣化を避けるために、全シーケンスの任意の選択能力を持つ必要があります。
最後に、非常に単純なTop-1要素選択アーキテクチャを用いて、この原理を実証的に検証し、より実用的なTop-1チャンク選択アーキテクチャに一般化する。
提案したシーケンスモデリングアーキテクチャ設計の原理を実証し,今後のアーキテクチャ改善や新しい設計の参考となることを示唆する。
関連論文リスト
- AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。
AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。
次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-11-07T18:43:17Z) - Cliqueformer: Model-Based Optimization with Structured Transformers [102.55764949282906]
大規模なニューラルネットワークは予測タスクに優れるが、タンパク質工学や材料発見といった設計問題への応用には、オフラインモデルベース最適化(MBO)の問題を解決する必要がある。
機能的グラフィカルモデル(FGM)を用いてブラックボックス関数の構造を学習するトランスフォーマーベースのアーキテクチャであるCliqueformerを提案する。
化学および遺伝子設計タスクを含む様々な領域において、Cliqueformerは既存の方法よりも優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-17T00:35:47Z) - Exploring the design space of deep-learning-based weather forecasting systems [56.129148006412855]
本稿では,異なる設計選択がディープラーニングに基づく天気予報システムに与える影響を系統的に分析する。
UNet、完全畳み込みアーキテクチャ、トランスフォーマーベースモデルなどの固定グリッドアーキテクチャについて検討する。
固定グリッドモデルの強靭な性能とグリッド不変アーキテクチャの柔軟性を組み合わせたハイブリッドシステムを提案する。
論文 参考訳(メタデータ) (2024-10-09T22:25:50Z) - How does Architecture Influence the Base Capabilities of Pre-trained Language Models? A Case Study Based on FFN-Wider and MoE Transformers [29.901110957318924]
本研究は,FFN-Wider変換器のアーキテクチャによる基本能力の低下を説明・逆転する試みである。
その結果,14BパラメータMOEモデルによる基礎能力の大幅な向上が達成できた。
論文 参考訳(メタデータ) (2024-03-04T19:33:39Z) - Hysteretic Behavior Simulation Based on Pyramid Neural
Network:Principle, Network Architecture, Case Study and Explanation [0.0]
ニューラルネットワークに基づく代理モデルでは、効率と精度のバランスをとる大きな可能性を示している。
単一レベルの特徴に基づく連続的な情報フローと予測は、ネットワーク性能に悪影響を及ぼす。
ここでは重み付けされたピラミッドニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-29T16:42:00Z) - Rethinking Architecture Selection in Differentiable NAS [74.61723678821049]
微分可能なニューラルアーキテクチャ探索は、その探索効率と簡易性において最も人気のあるNAS手法の1つである。
本稿では,各操作がスーパーネットに与える影響を直接測定する摂動に基づくアーキテクチャ選択を提案する。
提案手法により,DARTSの故障モードを大幅に緩和できることがわかった。
論文 参考訳(メタデータ) (2021-08-10T00:53:39Z) - A Semi-Supervised Assessor of Neural Architectures [157.76189339451565]
我々は、ニューラルネットワークの有意義な表現を見つけるためにオートエンコーダを用いる。
アーキテクチャの性能を予測するために、グラフ畳み込みニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-05-14T09:02:33Z) - Residual Attention Net for Superior Cross-Domain Time Sequence Modeling [0.0]
本稿では新しいアーキテクチャのコンセプト実証として機能し、RANはモデルにシーケンスパターンのより高レベルな理解を提供することを目的としている。
その結果,35の最先端結果が得られたが,10の結果が現在の最先端結果と一致し,さらなるモデル微調整は行われなかった。
論文 参考訳(メタデータ) (2020-01-13T06:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。