論文の概要: OTCE: Hybrid SSM and Attention with Cross Domain Mixture of Experts to construct Observer-Thinker-Conceiver-Expresser
- arxiv url: http://arxiv.org/abs/2406.16495v1
- Date: Mon, 24 Jun 2024 10:05:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 15:24:04.661973
- Title: OTCE: Hybrid SSM and Attention with Cross Domain Mixture of Experts to construct Observer-Thinker-Conceiver-Expresser
- Title(参考訳): OTCE:ハイブリッドSSMとエキスパートのクロスドメイン混合によるオブザーバ・シンカー・コンシーバー・エクスプレッサーの構築
- Authors: Jingze Shi, Ting Xie, Bingheng Wu, Chunjun Zheng, Kai Wang,
- Abstract要約: 我々は、より生体模倣的なアイデアを持つ新しいアーキテクチャ、Observer-Thinker-Conceiver-Expresser (OTCE)を提案する。
OTCEは、有名な中規模のオープンソース言語モデルと、小規模の言語モデリングタスクで競合することができる。
- 参考スコア(独自算出の注目度): 5.379035596712885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research has shown that combining Mamba with Transformer architecture, which has selective state space and quadratic self-attention mechanism, outperforms using Mamba or Transformer architecture alone in language modeling tasks. The quadratic self-attention mechanism effectively alleviates the shortcomings of selective state space in handling long-term dependencies of any element in the sequence. We propose a position information injection method that connects the selective state space model with the quadratic attention, and integrates these two architectures with hybrid experts with cross-sharing domains, so that we can enjoy the advantages of both. We design a new architecture with a more biomimetic idea: Observer-Thinker-Conceiver-Expresser (OTCE), which can compete with well-known medium-scale open-source language models on a small scale in language modeling tasks.
- Abstract(参考訳): 近年の研究では、言語モデリングタスクにおいて、MambaとTransformerアーキテクチャを組み合わせることで、MambaやTransformerアーキテクチャを単独で優れた性能を発揮することが示されている。
二次自己アテンション機構は、シーケンス内の任意の要素の長期的な依存関係を扱う際の選択状態空間の欠点を効果的に緩和する。
本稿では、選択状態空間モデルと二次的注意を結びつける位置情報注入法を提案し、これら2つのアーキテクチャをクロスシェアドメインを持つハイブリッド専門家と統合し、両者の利点を享受する。
我々は、よりバイオミメティックなアイデアを持つ新しいアーキテクチャを設計する: Observer-Thinker-Conceiver-Expresser (OTCE)。
関連論文リスト
- Hymba: A Hybrid-head Architecture for Small Language Models [65.94140459055244]
Hymbaは、ハイブリッドヘッド並列アーキテクチャを特徴とする、小さな言語モデルのファミリーである。
重要な情報を保持するプロンプトに先立って,学習可能なメタトークンを導入する。
このモデルは、層間鍵値共有と部分的スライディングウィンドウアテンションを組み込むことにより、さらに最適化される。
論文 参考訳(メタデータ) (2024-11-20T19:51:25Z) - FACTS: A Factored State-Space Framework For World Modelling [24.08175276756845]
本研究では,時空間空間モデリングのための新しいリカレントフレームワークであるtextbfFACTored textbfState-space (textbfFACTS) モデルを提案する。
FACTSフレームワークは、置換可能なメモリ表現を学習するルーティング機構を備えたグラフメモリを構築する。
汎用的な世界モデリング設計にもかかわらず、常に最先端のモデルに勝ったり、マッチする。
論文 参考訳(メタデータ) (2024-10-28T11:04:42Z) - Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality [31.985243136674146]
Mamba のような状態空間モデル (SSM) は,小型・中規模での変換器の整合性や性能向上が示されている。
我々の状態空間双対性(SSD)フレームワークは、コア層が2~8倍高速なMambaの選択SSMの精細化である新しいアーキテクチャ(Mamba-2)を設計することができる。
論文 参考訳(メタデータ) (2024-05-31T17:50:01Z) - Revisiting Multi-modal Emotion Learning with Broad State Space Models and Probability-guidance Fusion [14.14051929942914]
我々は,長距離文脈意味情報を特徴展開段階において抽出し,特徴融合段階においてモーダル間意味情報の一貫性を最大化するべきであると論じる。
近年の状態空間モデル (SSM) に着想を得たBroad Mambaを提案する。
提案手法は,長距離コンテキストをモデル化する場合に,Transformerの計算限界やメモリ制限を克服できることを示す。
論文 参考訳(メタデータ) (2024-04-27T10:22:03Z) - Cross-Architecture Transfer Learning for Linear-Cost Inference Transformers [1.1499643186017316]
本稿では,トランスフォーマ言語モデルの効率を向上させるために,クロスアーキテクチャトランスファー学習(XATL)を提案する。
Methodabbrはトレーニング時間を最大2.5倍に削減し、同じ計算予算内でLMベンチマークで最大2.6%より強力なモデルで最小限に収束する。
論文 参考訳(メタデータ) (2024-04-03T12:27:36Z) - MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection [5.37935922811333]
MambaMixerは、トークンとチャネル間の二重選択機構を使用する、データ依存の重みを持つ新しいアーキテクチャである。
概念実証として,Vision MambaMixer (ViM2) とTime Series MambaMixer (TSM2) を設計した。
論文 参考訳(メタデータ) (2024-03-29T00:05:13Z) - The Hidden Attention of Mamba Models [54.50526986788175]
Mamba層は、複数のドメインをモデリングするのに非常に効果的である効率的な選択状態空間モデル(SSM)を提供する。
このようなモデルを注意駆動モデルとみなすことができる。
この新たな視点は、トランスの自己保持層のメカニズムを経験的かつ理論的に比較することを可能にする。
論文 参考訳(メタデータ) (2024-03-03T18:58:21Z) - ChatterBox: Multi-round Multimodal Referring and Grounding [108.9673313949746]
この目的のために,新しいベンチマークと効率的な視覚言語モデルを提案する。
提案したChatterBoxは、2ブランチアーキテクチャを使って視覚と言語タスクを協調的に処理する。
実験の結果、ChatterBoxはMRGの既存のモデルよりも定量的にも質的にも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-24T09:02:00Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。