論文の概要: OTCE: Hybrid SSM and Attention with Cross Domain Mixture of Experts to construct Observer-Thinker-Conceiver-Expresser
- arxiv url: http://arxiv.org/abs/2406.16495v1
- Date: Mon, 24 Jun 2024 10:05:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 15:24:04.661973
- Title: OTCE: Hybrid SSM and Attention with Cross Domain Mixture of Experts to construct Observer-Thinker-Conceiver-Expresser
- Title(参考訳): OTCE:ハイブリッドSSMとエキスパートのクロスドメイン混合によるオブザーバ・シンカー・コンシーバー・エクスプレッサーの構築
- Authors: Jingze Shi, Ting Xie, Bingheng Wu, Chunjun Zheng, Kai Wang,
- Abstract要約: 我々は、より生体模倣的なアイデアを持つ新しいアーキテクチャ、Observer-Thinker-Conceiver-Expresser (OTCE)を提案する。
OTCEは、有名な中規模のオープンソース言語モデルと、小規模の言語モデリングタスクで競合することができる。
- 参考スコア(独自算出の注目度): 5.379035596712885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research has shown that combining Mamba with Transformer architecture, which has selective state space and quadratic self-attention mechanism, outperforms using Mamba or Transformer architecture alone in language modeling tasks. The quadratic self-attention mechanism effectively alleviates the shortcomings of selective state space in handling long-term dependencies of any element in the sequence. We propose a position information injection method that connects the selective state space model with the quadratic attention, and integrates these two architectures with hybrid experts with cross-sharing domains, so that we can enjoy the advantages of both. We design a new architecture with a more biomimetic idea: Observer-Thinker-Conceiver-Expresser (OTCE), which can compete with well-known medium-scale open-source language models on a small scale in language modeling tasks.
- Abstract(参考訳): 近年の研究では、言語モデリングタスクにおいて、MambaとTransformerアーキテクチャを組み合わせることで、MambaやTransformerアーキテクチャを単独で優れた性能を発揮することが示されている。
二次自己アテンション機構は、シーケンス内の任意の要素の長期的な依存関係を扱う際の選択状態空間の欠点を効果的に緩和する。
本稿では、選択状態空間モデルと二次的注意を結びつける位置情報注入法を提案し、これら2つのアーキテクチャをクロスシェアドメインを持つハイブリッド専門家と統合し、両者の利点を享受する。
我々は、よりバイオミメティックなアイデアを持つ新しいアーキテクチャを設計する: Observer-Thinker-Conceiver-Expresser (OTCE)。
関連論文リスト
- Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality [31.985243136674146]
Mamba のような状態空間モデル (SSM) は,小型・中規模での変換器の整合性や性能向上が示されている。
我々の状態空間双対性(SSD)フレームワークは、コア層が2~8倍高速なMambaの選択SSMの精細化である新しいアーキテクチャ(Mamba-2)を設計することができる。
論文 参考訳(メタデータ) (2024-05-31T17:50:01Z) - Revisiting Multi-modal Emotion Learning with Broad State Space Models and Probability-guidance Fusion [14.14051929942914]
我々は,長距離文脈意味情報を特徴展開段階において抽出し,特徴融合段階においてモーダル間意味情報の一貫性を最大化するべきであると論じる。
近年の状態空間モデル (SSM) に着想を得たBroad Mambaを提案する。
提案手法は,長距離コンテキストをモデル化する場合に,Transformerの計算限界やメモリ制限を克服できることを示す。
論文 参考訳(メタデータ) (2024-04-27T10:22:03Z) - Cross-Architecture Transfer Learning for Linear-Cost Inference Transformers [1.1499643186017316]
本稿では,トランスフォーマ言語モデルの効率を向上させるために,クロスアーキテクチャトランスファー学習(XATL)を提案する。
Methodabbrはトレーニング時間を最大2.5倍に削減し、同じ計算予算内でLMベンチマークで最大2.6%より強力なモデルで最小限に収束する。
論文 参考訳(メタデータ) (2024-04-03T12:27:36Z) - MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection [5.37935922811333]
MambaMixerは、トークンとチャネル間の二重選択機構を使用する、データ依存の重みを持つ新しいアーキテクチャである。
概念実証として,Vision MambaMixer (ViM2) とTime Series MambaMixer (TSM2) を設計した。
論文 参考訳(メタデータ) (2024-03-29T00:05:13Z) - The Hidden Attention of Mamba Models [54.50526986788175]
Mamba層は、複数のドメインをモデリングするのに非常に効果的である効率的な選択状態空間モデル(SSM)を提供する。
このようなモデルを注意駆動モデルとみなすことができる。
この新たな視点は、トランスの自己保持層のメカニズムを経験的かつ理論的に比較することを可能にする。
論文 参考訳(メタデータ) (2024-03-03T18:58:21Z) - ChatterBox: Multi-round Multimodal Referring and Grounding [108.9673313949746]
この目的のために,新しいベンチマークと効率的な視覚言語モデルを提案する。
提案したChatterBoxは、2ブランチアーキテクチャを使って視覚と言語タスクを協調的に処理する。
実験の結果、ChatterBoxはMRGの既存のモデルよりも定量的にも質的にも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-24T09:02:00Z) - One-for-All: Towards Universal Domain Translation with a Single StyleGAN [86.33216867136639]
視覚的に異なる領域間の表現を変換するための新しい翻訳モデルUniTranslatorを提案する。
提案したUniTranslatorは汎用的で、スタイルミキシング、スタイリゼーション、翻訳など様々なタスクを実行できる。
UniTranslatorは、既存の汎用モデルの性能を超越し、代表タスクの特殊モデルに対してよく機能する。
論文 参考訳(メタデータ) (2023-10-22T08:02:55Z) - CSM-H-R: A Context Modeling Framework in Supporting Reasoning Automation for Interoperable Intelligent Systems and Privacy Protection [0.07499722271664144]
本稿では,大規模システムにおけるハイレベルコンテキスト推論(HLC)の自動化のための新しいフレームワークを提案する。
フレームワークの設計は、インテリジェントシステムとCSMを扱うコンポーネント間の共有と相互コンテキスト、階層、関係、遷移の管理をサポートする。
ベクトルおよび行列計算へのHLC推論に関するフレームワーク実験の実装は、次のレベルの自動化に到達する可能性を示す。
論文 参考訳(メタデータ) (2023-08-21T22:21:15Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z) - Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。
TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文 参考訳(メタデータ) (2021-02-27T21:48:46Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。