論文の概要: FANformer: Improving Large Language Models Through Effective Periodicity Modeling
- arxiv url: http://arxiv.org/abs/2502.21309v1
- Date: Fri, 28 Feb 2025 18:52:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:44:18.439014
- Title: FANformer: Improving Large Language Models Through Effective Periodicity Modeling
- Title(参考訳): FANformer: 効率的な周期性モデリングによる大規模言語モデルの改善
- Authors: Yihong Dong, Ge Li, Xue Jiang, Yongding Tao, Kechi Zhang, Hao Zhu, Huanyu Liu, Jiazheng Ding, Jia Li, Jinliang Deng, Hong Mei,
- Abstract要約: 本稿ではFANformerを紹介し,Fourier Analysis Network(FAN)をアテンション機構に統合し,効率的な周期性モデリングを実現する。
FANformerはモデルサイズのスケールアップやトークンのトレーニングにおいて,Transformerよりも一貫してパフォーマンスが向上している。
FANformerの有効性をさらに検証するため、FANformer-1Bを1兆個のトークンで事前訓練する。
- 参考スコア(独自算出の注目度): 30.84203256282429
- License:
- Abstract: Periodicity, as one of the most important basic characteristics, lays the foundation for facilitating structured knowledge acquisition and systematic cognitive processes within human learning paradigms. However, the potential flaws of periodicity modeling in Transformer affect the learning efficiency and establishment of underlying principles from data for large language models (LLMs) built upon it. In this paper, we demonstrate that integrating effective periodicity modeling can improve the learning efficiency and performance of LLMs. We introduce FANformer, which integrates Fourier Analysis Network (FAN) into attention mechanism to achieve efficient periodicity modeling, by modifying the feature projection process of attention mechanism. Extensive experimental results on language modeling show that FANformer consistently outperforms Transformer when scaling up model size and training tokens, underscoring its superior learning efficiency. To further validate the effectiveness of FANformer, we pretrain a FANformer-1B on 1 trillion tokens. FANformer-1B exhibits marked improvements on downstream tasks compared to open-source LLMs with similar model parameters or training tokens. The results position FANformer as an effective and promising architecture for advancing LLMs.
- Abstract(参考訳): 周期性は、最も重要な基本的な特徴の1つであり、人間の学習パラダイムにおける構造化知識獲得と体系的な認知プロセスの促進の基盤となっている。
しかし、Transformerにおける周期性モデリングの潜在的な欠陥は、その上に構築された大規模言語モデル(LLM)のデータから学習効率と基礎となる原理の確立に影響を及ぼす。
本稿では,LLMの学習効率と性能を向上させるために,効果的な周期性モデリングを統合することを実証する。
本稿では,FANformerを導入し,FAN(Fourier Analysis Network)をアテンション機構に統合し,アテンション機構の特徴投影プロセスを変更することで,効率的な周期性モデリングを実現する。
言語モデリングに関する大規模な実験結果から、FANformerはモデルサイズのスケールアップやトークンのトレーニングにおいて、Transformerよりも一貫して優れており、優れた学習効率が評価されている。
FANformerの有効性をさらに検証するため、FANformer-1Bを1兆個のトークンで事前訓練する。
FANformer-1Bは、同様のモデルパラメータやトレーニングトークンを持つオープンソースのLLMと比較して、ダウンストリームタスクが大幅に改善されている。
その結果、FANformer は LLM の進歩に有効かつ有望なアーキテクチャとして位置づけられた。
関連論文リスト
- Enhancing Semantic Consistency of Large Language Models through Model Editing: An Interpretability-Oriented Approach [28.07366458452159]
大規模言語モデル(LLM)は、等価な意味を持つプロンプトが提示されるが、元のプロンプトとは異なる形で表現されるとき、矛盾する出力を生成する。
LLMのセマンティック一貫性を達成するために、重要なアプローチの1つは、セマンティックに等価な意味を持つプロンプトとアウトプットのペアでモデルを微調整することである。
LLMのセマンティック一貫性を高めるために,より解釈可能な手法(モデル編集)を提案する。
論文 参考訳(メタデータ) (2025-01-19T13:26:15Z) - Feature Alignment-Based Knowledge Distillation for Efficient Compression of Large Language Models [4.737806982257592]
本研究では,大規模言語モデルと特徴アライメントに基づく知識蒸留アルゴリズムを提案する。
提案モデルは, パープレキシティ, BLEU, ROUGE, CER などの評価指標を用いて, 最先端の GPT-4 モデルに非常に近い性能を示す。
論文 参考訳(メタデータ) (2024-12-27T04:37:06Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - Imitating Language via Scalable Inverse Reinforcement Learning [34.161807103808016]
我々は,模倣に対する逆強化学習の観点からの考察に焦点をあてる。
IRLをベースとした模倣には,特にタスク性能を最大化しながら多様性を維持する上で,明らかなメリットがある。
論文 参考訳(メタデータ) (2024-09-02T16:48:57Z) - Structuring a Training Strategy to Robustify Perception Models with Realistic Image Augmentations [1.5723316845301678]
本報告では, モデルロバスト性, 性能を向上させるため, 強化したトレーニング手法を提案する。
機械学習モデルの弱点を特定し、適切な拡張を選択し、効果的なトレーニング戦略を考案する包括的フレームワークを提案する。
実験結果は,オープンソースオブジェクトの検出とセマンティックセグメンテーションモデルとデータセットに対する平均平均精度(mAP)や平均距離(mIoU)といった一般的な測定値によって測定されるモデル性能の改善を示す。
論文 参考訳(メタデータ) (2024-08-30T14:15:48Z) - DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。
ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。
ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文 参考訳(メタデータ) (2024-05-22T15:52:52Z) - CATfOOD: Counterfactual Augmented Training for Improving Out-of-Domain
Performance and Calibration [59.48235003469116]
データの増大はOOD性能を継続的に向上させることを示す。
また, CF拡張モデルのキャリブレーションが容易な場合, 重要度を割り当てる場合, エントロピーがはるかに低いことを示す。
論文 参考訳(メタデータ) (2023-09-14T16:16:40Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。