Fugu-MT 論文翻訳(概要): State Space Models are Strong Text Rerankers

論文の概要: State Space Models are Strong Text Rerankers

arxiv url: http://arxiv.org/abs/2412.14354v1
Date: Wed, 18 Dec 2024 21:42:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-20 18:44:15.901133
Title: State Space Models are Strong Text Rerankers
Title（参考訳）: 状態空間モデルは強いテキストリランカである
Authors: Zhichao Xu, Jinghua Yan, Ashim Gupta, Vivek Srikumar,
Abstract要約: Mambaのようなステートスペースモデル(SSM)は有望な利点を提供する。その可能性にもかかわらず、SSMのテキストの再ランクにおける有効性は未定のままである。 Mambaアーキテクチャは、同様のサイズのトランスフォーマーベースのモデルに匹敵する、競合するテキストランキングのパフォーマンスを実現する。
参考スコア（独自算出の注目度）: 33.41687512973575
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformers dominate NLP and IR; but their inference inefficiencies and challenges in extrapolating to longer contexts have sparked interest in alternative model architectures. Among these, state space models (SSMs) like Mamba offer promising advantages, particularly $O(1)$ time complexity in inference. Despite their potential, SSMs' effectiveness at text reranking -- a task requiring fine-grained query-document interaction and long-context understanding -- remains underexplored. This study benchmarks SSM-based architectures (specifically, Mamba-1 and Mamba-2) against transformer-based models across various scales, architectures, and pre-training objectives, focusing on performance and efficiency in text reranking tasks. We find that (1) Mamba architectures achieve competitive text ranking performance, comparable to transformer-based models of similar size; (2) they are less efficient in training and inference compared to transformers with flash attention; and (3) Mamba-2 outperforms Mamba-1 in both performance and efficiency. These results underscore the potential of state space models as a transformer alternative and highlight areas for improvement in future IR applications.
Abstract（参考訳）: トランスフォーマーは NLP と IR を支配しているが、その推論の非効率性と長いコンテキストへの外挿の課題は、代替モデルアーキテクチャへの関心を喚起している。これらのうち、Mambaのような状態空間モデル(SSM)は有望な利点を提供する。その可能性にもかかわらず、詳細なクエリとドキュメントのインタラクションと長いコンテキストの理解を必要とするタスクであるテキストの再ランクにおけるSSMの有効性は、いまだ検討されていない。本研究では,SSMベースのアーキテクチャ(特にMamba-1とMamba-2)を,さまざまなスケール,アーキテクチャ,事前学習対象のトランスフォーマーベースモデルに対してベンチマークし,テキストリグレードタスクの性能と効率性に着目した。その結果,(1)Mambaアーキテクチャは,類似サイズのトランスフォーマーモデルに匹敵する競争力のあるテキストランキング性能を実現し,(2)フラッシュアテンションを持つトランスフォーマーに比べてトレーニングや推論の効率が低く,(3)Mamba-2はパフォーマンスと効率の両方でMamba-1を上回っていることがわかった。これらの結果は、トランスフォーマー代替として状態空間モデルの可能性を強調し、将来のIRアプリケーションで改善すべき領域を強調している。

関連論文リスト

Differential Mamba [16.613266337054267]
TransformerやRNNのようなシーケンスモデルは、しばしば無関係なコンテキストに注意を向け、ノイズの多い中間表現をもたらす。最近の研究は、差分設計がトランスフォーマーにおけるこの問題を緩和し、様々なアプリケーションにおけるそれらの効果を向上させることを示している。本研究では,マンバへの微分設計の素直な適応は不十分であり,注意深いアーキテクチャ修正が必要であることを示す。
論文参考訳（メタデータ） (2025-07-08T17:30:14Z)
Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。 Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文参考訳（メタデータ） (2025-06-22T19:26:55Z)
DYNAMAX: Dynamic computing for Transformers and Mamba based architectures [2.5739385355356714]
アーリーエグジット(EE)は、データサンプルに対する十分な予測信頼が達成されれば、推論を動的に終了させることで、計算コストとレイテンシを低減するための有望なアプローチを提供する。 DYNAMAXは、初期の出口機構のためにMambaアーキテクチャのユニークな特性を利用する最初のフレームワークである。
論文参考訳（メタデータ） (2025-04-29T16:38:15Z)
TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba [88.31117598044725]
本稿では,既存のTransformerモデルの知識を,TransMambaと呼ばれる代替アーキテクチャのMambaに伝達するクロスアーキテクチャトレーニングについて検討する。提案手法では,新しいマンバモデルの訓練を高速化し,ユニモーダルタスクおよびクロスモーダルタスクにおける有効性を確保するための2段階戦略を採用している。クロスモーダル学習のために,言語認識をMambaの視覚的特徴に統合し,Mambaアーキテクチャのクロスモーダルインタラクション能力を向上するクロスマンバモジュールを提案する。
論文参考訳（メタデータ） (2025-02-21T01:22:01Z)
From Markov to Laplace: How Mamba In-Context Learns Markov Chains [36.22373318908893]
我々はマルコフ連鎖の文脈内学習について研究し、驚くべき現象を明らかにする。トランスとは異なり、単層マンバでさえ、文脈内ラプラシアスムージング推定器を効率的に学習する。これらの理論的な洞察は経験的な結果と強く一致し、マンバと最適統計推定器の間の最初の公式な関係を表す。
論文参考訳（メタデータ） (2025-02-14T14:13:55Z)
On the locality bias and results in the Long Range Arena [49.15148871877941]
Long Range ArenaベンチマークはTransformerの改良性能を評価するために設計された。ステート・スペース・モデル(SSM)のような新しいアーキテクチャは、LRAのトランスフォーマーよりも優れていた。 LRAは長距離依存モデリングのベンチマークであるが、実際にはほとんどのパフォーマンスは短距離依存によるものである。
論文参考訳（メタデータ） (2025-01-24T15:34:50Z)
Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文参考訳（メタデータ） (2024-12-21T13:43:51Z)
MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。効率と性能のバランスをとるMobileMambaフレームワークを提案する。 MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文参考訳（メタデータ） (2024-11-24T18:01:05Z)
ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。 ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文参考訳（メタデータ） (2024-08-28T02:47:27Z)
Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。 SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-08-21T09:12:59Z)
How Effective are State Space Models for Machine Translation? [19.509486069758495]
トランスフォーマーは現在のNLPのアーキテクチャとして選択されているが、注意層は長いコンテキストではスケールしない。最近の研究は、注意を線形リカレント層に置き換えることを提案する。これらのモデルが機械翻訳においてトランスフォーマーと競合するかどうかは不明である。
論文参考訳（メタデータ） (2024-07-07T20:21:49Z)
MaIL: Improving Imitation Learning with Mamba [30.96458274130313]
Mamba Imitation Learning (MaIL)は、最先端(SoTA)トランスフォーマーベースのポリシーの代替を提供する。 Mambaのアーキテクチャは、重要な特徴に焦点をあてることで、表現学習効率を高める。 MaILは、制限されたデータで全てのLIBEROタスクでトランスフォーマーを一貫して上回る。
論文参考訳（メタデータ） (2024-06-12T14:01:12Z)
RankMamba: Benchmarking Mamba's Document Ranking Performance in the Era of Transformers [2.8554857235549753]
トランスフォーマーアーキテクチャのコアメカニズム -- 注意には、トレーニングにおけるO(n2)$時間複雑さと推論におけるO(n)$時間複雑さが必要です。状態空間モデルに基づく有名なモデル構造であるMambaは、シーケンスモデリングタスクにおいてトランスフォーマー等価のパフォーマンスを達成した。同じトレーニングレシピを持つトランスフォーマーベースモデルと比較して,Mambaモデルは競争性能が向上することがわかった。
論文参考訳（メタデータ） (2024-03-27T06:07:05Z)
Is Mamba Effective for Time Series Forecasting? [30.85990093479062]
時系列予測のための,S-Mamba(S-Mamba)というマンバモデルを提案する。具体的には,各変数の時間点を線形層を介して自律的にトークン化する。 13の公開データセットの実験では、S-Mambaは計算オーバーヘッドを低く保ち、主要な性能を達成している。
論文参考訳（メタデータ） (2024-03-17T08:50:44Z)
Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能するこの研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文参考訳（メタデータ） (2024-02-05T16:39:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。