論文の概要: How Well Can a Long Sequence Model Model Long Sequences? Comparing Architechtural Inductive Biases on Long-Context Abilities
- arxiv url: http://arxiv.org/abs/2407.08112v2
- Date: Fri, 26 Jul 2024 17:31:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 17:32:36.742965
- Title: How Well Can a Long Sequence Model Model Long Sequences? Comparing Architechtural Inductive Biases on Long-Context Abilities
- Title(参考訳): 長周期モデルの長周期モデルにどの程度の効果があるか : 経時的変化の経時的変化と経時的変化の比較
- Authors: Jerry Huang,
- Abstract要約: システム工学の最近の進歩により、拡張コンテキスト長をサポートするために用意されたモデルのスケールアップが可能になった。
このような主張は理論的に聞こえるかもしれないが、実証的に観察される大きな実践的ギャップが残っている。
- 参考スコア(独自算出の注目度): 0.6798775532273751
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long sequences occur in abundance within real-world scenarios, hence properly modelling them opens numerous down-stream use-cases. Deep neural networks, however, have often struggled with these for a variety of reasons. Recent advances, both in system engineering as well as model design, have enabled the scaling up of model that are purported to support extended context length. In particular, the state-space and linear recurrent neural network families of models hypothetically can entend to infinite sequence lenth. However, is this too good to be true? We conduct an evaluation to show that while such claims may be sound theoretically, there remain large practical gaps that are empirically observed. In particular, recurrent models still suffer in the same settings as long-context LLMs with attention. We further show that different inductive biases have inconsistent extrapolation capabilities, highlighting the need to further study such paradigms and investigate why long-context models seemingly fail to behave as one might expect.
- Abstract(参考訳): 実世界のシナリオでは長いシーケンスが豊富に存在するため、適切にモデル化することで、多数のダウンストリームユースケースが開きます。
しかし、ディープニューラルネットワークは、様々な理由から、これらの問題に悩まされていることが多い。
システム工学とモデル設計の両方における最近の進歩は、拡張コンテキスト長をサポートするために提供されたモデルのスケールアップを可能にした。
特に、仮説的にモデルの状態空間および線形リカレントニューラルネットワークファミリーは無限列レンズに収束することができる。
しかし、これはあまりにも良いことですか?
このような主張が理論的に健全であるにもかかわらず、実証的に観察される大きな実践的ギャップが残っていることを示すために評価を行う。
特に、リカレントモデルは長いコンテキストのLLMと同じ設定で注意を払っている。
さらに、異なる帰納的バイアスには矛盾する外挿能力があることを示し、そのようなパラダイムをさらに研究する必要性を強調し、長期コンテキストモデルが期待通りに振る舞うことができないように見える理由を調査する。
関連論文リスト
- Oscillatory State-Space Models [61.923849241099184]
長いシーケンスを効率的に学習するための線形状態空間モデル(LinOSS)を提案する。
高速な連想並列スキャンを用いて時間とともに統合された安定な離散化により、提案した状態空間モデルが得られる。
我々はLinOSSが普遍であること、すなわち時間変化関数間の連続および因果作用素写像を近似できることを示す。
論文 参考訳(メタデータ) (2024-10-04T22:00:13Z) - State space models, emergence, and ergodicity: How many parameters are needed for stable predictions? [28.65576793023554]
かなりの長距離相関を示すタスクには,一定のパラメータが要求されることを示す。
また,学習者のパラメトリゼーションの役割についても検討し,隠れ状態を持つ線形力学系の簡単なバージョンを考える。
論文 参考訳(メタデータ) (2024-09-20T11:39:37Z) - On the Resurgence of Recurrent Models for Long Sequences -- Survey and
Research Opportunities in the Transformer Era [59.279784235147254]
この調査は、Recurrenceの統一の傘の下に構築されたこれらのトレンドの概要を提供することを目的としている。
長いシーケンスを処理するという考え方を捨てる際に顕著になる新しい研究機会を強調している。
論文 参考訳(メタデータ) (2024-02-12T23:55:55Z) - Exposing Attention Glitches with Flip-Flop Language Modeling [55.0688535574859]
この研究は、大きな言語モデルにおける注意点の現象を特定し、分析する。
ニューラルネットワークモデルの外挿挙動を探索するために設計された,合成ベンチマークのファミリであるフリップフロップ言語モデリング(FFLM)を導入する。
その結果,Transformer FFLM は散発的推論誤差の長い尾に悩まされていることがわかった。
論文 参考訳(メタデータ) (2023-06-01T17:44:35Z) - Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。
本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文 参考訳(メタデータ) (2023-05-03T17:58:29Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Simple Local Attentions Remain Competitive for Long-Context Tasks [32.785459927278616]
多くのNLPタスクは、事前訓練されたモデルの長さ制限を超える長いコンテキストを処理する必要がある。
これらのモデルをより長いテキストシーケンスにスケールするために、多くの効率的な長距離アテンション変種が提案されている。
各注意変種について、同一の長docコーパスを用いて大規模モデルを事前訓練し、それらのモデルを現実世界の長コンテキストタスクのために微調整する。
論文 参考訳(メタデータ) (2021-12-14T07:37:58Z) - TimeSHAP: Explaining Recurrent Models through Sequence Perturbations [3.1498833540989413]
リカレントニューラルネットワークは、多くの機械学習ドメインで標準的なビルディングブロックである。
これらのモデルにおける複雑な意思決定はブラックボックスと見なされ、正確性と解釈可能性の間の緊張を生み出す。
本研究では,モデルに依存しないリカレント説明器であるTimeSHAPを提示することにより,これらのギャップを埋めることに寄与する。
論文 参考訳(メタデータ) (2020-11-30T19:48:57Z) - Causal Expectation-Maximisation [70.45873402967297]
ポリツリーグラフを特徴とするモデルにおいても因果推論はNPハードであることを示す。
我々は因果EMアルゴリズムを導入し、分類的表現変数のデータから潜伏変数の不確かさを再構築する。
我々は、反事実境界が構造方程式の知識なしにしばしば計算できるというトレンドのアイデアには、目立たずの制限があるように思える。
論文 参考訳(メタデータ) (2020-11-04T10:25:13Z) - Neural Additive Vector Autoregression Models for Causal Discovery in
Time Series [1.160208922584163]
本稿では,非線型関係を発見できる因果構造学習へのニューラルアプローチを提案する。
時系列の時間進化から(付加的な)グランガー因果関係を抽出するディープニューラルネットワークを訓練する。
この手法は、因果探索のための様々なベンチマークデータセットに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2020-10-19T12:44:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。