論文の概要: Fourier Head: Helping Large Language Models Learn Complex Probability Distributions
- arxiv url: http://arxiv.org/abs/2410.22269v1
- Date: Tue, 29 Oct 2024 17:27:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:43:18.734276
- Title: Fourier Head: Helping Large Language Models Learn Complex Probability Distributions
- Title(参考訳): Fourier Head: 大規模言語モデルによる複雑な確率分布の学習を支援する
- Authors: Nate Gillman, Daksh Aggarwal, Michael Freeman, Saurabh Singh, Chen Sun,
- Abstract要約: フーリエ級数を用いて構築されたニューラルネットワーク層を導入し,出力がより連続的な構造であれば,任意の線形層に置換することができる。
我々は,大規模な意思決定や時系列予測タスクと同様に,合成データセットの広範な分析を行う。
提案したフーリエヘッドは,基礎となるデータ分布が自然な連続構造を持つシナリオにおいて有効である。
- 参考スコア(独自算出の注目度): 7.074506869260538
- License:
- Abstract: As the quality of large language models has improved, there has been increased interest in using them to model non-linguistic tokens. For example, the Decision Transformer recasts agentic decision making as a sequence modeling problem, using a decoder-only LLM to model the distribution over the discrete action space for an Atari agent. However, when adapting LLMs to non-linguistic domains, it remains unclear if softmax over discrete bins captures the continuous structure of the tokens and the potentially complex distributions needed for high quality token generation. We introduce a neural network layer, constructed using Fourier series, which we can easily substitute for any linear layer if we want the outputs to have a more continuous structure. We perform extensive analysis on synthetic datasets, as well as on large-scale decision making and time series forecasting tasks. We also provide theoretical evidence that this layer can better learn signal from data while ignoring high-frequency noise. All of our results support the effectiveness of our proposed Fourier head in scenarios where the underlying data distribution has a natural continuous structure. For example, the Fourier head improves a Decision Transformer agent's returns by 46% on the Atari Seaquest game, and increases a state-of-the-art times series foundation model's forecasting performance by 3.5% across 20 benchmarks unseen during training.
- Abstract(参考訳): 大規模言語モデルの質が向上するにつれて、非言語的トークンのモデル化に使用することへの関心が高まっている。
例えば、決定変換器は、デコーダのみのLCMを用いてエージェント決定をシーケンスモデリング問題として再キャストし、Atariエージェントの離散アクション空間上の分布をモデル化する。
しかし、LLMを非言語領域に適用する場合、離散ビン上のソフトマックスがトークンの連続的な構造と、高品質なトークン生成に必要な潜在的に複雑な分布をキャプチャするかどうかは不明である。
フーリエ級数を用いて構築されたニューラルネットワーク層を導入し,出力がより連続的な構造であれば,任意の線形層に置換することができる。
我々は,大規模な意思決定や時系列予測タスクと同様に,合成データセットの広範な分析を行う。
また、この層が高周波ノイズを無視しながらデータから信号を学ぶことができるという理論的証拠も提示する。
提案したフーリエヘッドは,基礎となるデータ分布が自然な連続構造を持つシナリオにおいて有効である。
例えば、フーリエヘッドは、アタリシークエストゲームにおいて、決定トランスフォーマーエージェントのリターンを46%改善し、トレーニング中に見つからない20のベンチマークにおいて、最先端の時系列モデルによる予測性能を3.5%向上させる。
関連論文リスト
- Sampling Foundational Transformer: A Theoretical Perspective [12.7600763629179]
本稿では,複数のデータモダリティを扱える基本サンプリング変換器(SFT)を提案する。
SFTは多くのベンチマークで競合する結果を得たが、他の非常に特殊なモデルに比べて推論が速い。
論文 参考訳(メタデータ) (2024-08-11T16:53:09Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - A Transformer-based Framework For Multi-variate Time Series: A Remaining
Useful Life Prediction Use Case [4.0466311968093365]
本研究は,時系列予測のためのエンコーダ変換アーキテクチャに基づくフレームワークを提案する。
C-MAPPSベンチマークデータセットの4セットすべてに対して,提案手法の有効性を検証した。
機械寿命の初期段階と劣化経路のモデル認識を可能にするため, 新たな拡張窓手法が提案された。
論文 参考訳(メタデータ) (2023-08-19T02:30:35Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Generative Text Modeling through Short Run Inference [47.73892773331617]
本研究は、推論のためのショートランダイナミックスを提案し、潜伏変数の以前の分布から変化し、後続分布によって導かれる少数のランゲヴィンダイナミックスステップを実行する。
短絡力学で訓練されたモデルは、強い言語モデルやVAEベースラインと比較して、より正確にデータをモデル化し、後方崩壊の兆候は示さない。
論文 参考訳(メタデータ) (2021-05-27T09:14:35Z) - Generalizing Variational Autoencoders with Hierarchical Empirical Bayes [6.273154057349038]
確率的生成モデルのための計算的に安定なフレームワークである階層的経験的ベイズオートエンコーダ(HEBAE)を提案する。
鍵となる貢献は2つであり、まず、符号化分布を階層的に優先することで、再構成損失関数の最小化と過正規化の回避とのトレードオフを適応的にバランスさせることで、利益を得る。
論文 参考訳(メタデータ) (2020-07-20T18:18:39Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。