論文の概要: Mamba Retriever: Utilizing Mamba for Effective and Efficient Dense Retrieval
- arxiv url: http://arxiv.org/abs/2408.08066v2
- Date: Thu, 22 Aug 2024 15:07:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 17:51:42.074388
- Title: Mamba Retriever: Utilizing Mamba for Effective and Efficient Dense Retrieval
- Title(参考訳): Mamba Retriever: 効果的で効率的なDense RetrievalのためのMambaの利用
- Authors: Hanqi Zhang, Chong Chen, Lang Mei, Qi Liu, Jiaxin Mao,
- Abstract要約: 本稿では,Mamba Retrieverを実装して,Mambaが高密度検索(DR)モデルの効率的なエンコーダとして機能するかどうかを検討する。
Mamba RetrieverはTransformerベースの検索モデルと比較すると、同等かより優れた効率を実現している。
Mamba Retrieverは長文検索において推論速度が優れている。
- 参考スコア(独自算出の注目度): 14.810983628396539
- License:
- Abstract: In the information retrieval (IR) area, dense retrieval (DR) models use deep learning techniques to encode queries and passages into embedding space to compute their semantic relations. It is important for DR models to balance both efficiency and effectiveness. Pre-trained language models (PLMs), especially Transformer-based PLMs, have been proven to be effective encoders of DR models. However, the self-attention component in Transformer-based PLM results in a computational complexity that grows quadratically with sequence length, and thus exhibits a slow inference speed for long-text retrieval. Some recently proposed non-Transformer PLMs, especially the Mamba architecture PLMs, have demonstrated not only comparable effectiveness to Transformer-based PLMs on generative language tasks but also better efficiency due to linear time scaling in sequence length. This paper implements the Mamba Retriever to explore whether Mamba can serve as an effective and efficient encoder of DR model for IR tasks. We fine-tune the Mamba Retriever on the classic short-text MS MARCO passage ranking dataset and the long-text LoCoV0 dataset. Experimental results show that (1) on the MS MARCO passage ranking dataset and BEIR, the Mamba Retriever achieves comparable or better effectiveness compared to Transformer-based retrieval models, and the effectiveness grows with the size of the Mamba model; (2) on the long-text LoCoV0 dataset, the Mamba Retriever can extend to longer text length than its pre-trained length after fine-tuning on retrieval task, and it has comparable or better effectiveness compared to other long-text retrieval models; (3) the Mamba Retriever has superior inference speed for long-text retrieval. In conclusion, Mamba Retriever is both effective and efficient, making it a practical model, especially for long-text retrieval.
- Abstract(参考訳): 情報検索(IR)領域では、密集検索(DR)モデルは、深い学習技術を用いて、クエリやパスを埋め込み空間にエンコードし、それらの意味関係を計算する。
DRモデルは効率と効率のバランスをとることが重要である。
プレトレーニング言語モデル(PLM)、特にトランスフォーマーベースのPLMは、DRモデルの効果的なエンコーダであることが証明されている。
しかし, Transformer をベースとした PLM の自己注意成分は, 逐次長で2次的に増大する計算複雑性を生じるため, 長文検索における推論速度が遅くなる。
最近提案された非トランスフォーマー PLM、特にマンバアーキテクチャ PLM は、生成言語タスクにおけるトランスフォーマーベースの PLM に匹敵する効果を示すだけでなく、シーケンス長の線形時間スケーリングによる効率の向上も示している。
本稿では,Mamba Retriever を用いて,Mamba が DR モデルの効率的なエンコーダとして機能するかどうかを探索する。
我々は、古典的な短文MS MARCO通過ランキングデータセットと長文LoCoV0データセットに基づいて、Mamba Retrieverを微調整する。
実験結果から,(1)MS MARCOパスランキングデータセットとBEIRでは,Transformerベースの検索モデルと同等かそれ以上の有効性が達成され,(2)長文LoCoV0データセットでは,Mamba Retrieverは検索タスクの微調整後の事前トレーニング長よりも長いテキスト長まで拡張でき,(3)長文検索モデルと同等かそれ以上の有効性を有すること,(3)長文検索において,Mamba Retrieverは推論速度が優れていることが示唆された。
結論として、Mamba Retrieverは効率的かつ効率的であり、特に長文検索において実用的モデルとなっている。
関連論文リスト
- MambaPEFT: Exploring Parameter-Efficient Fine-Tuning for Mamba [0.5530212768657544]
ステートスペースモデル(SSM)ベースのモデルであるMambaは、トランスフォーマーの代替として注目されている。
Mambaに適用した場合のトランスフォーマーに対する既存のPEFT法の有効性について検討する。
本研究では,マンバの固有構造を利用した新しいPEFT法を提案する。
論文 参考訳(メタデータ) (2024-11-06T11:57:55Z) - MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - DocMamba: Efficient Document Pre-training with State Space Model [56.84200017560988]
本稿では,状態空間モデルに基づく新しいフレームワークDocMambaを紹介する。
グローバルなモデリング能力を保ちながら、計算複雑性を線形に減らすように設計されている。
HRDocの実験では、DocMambaの長さ外挿の可能性が確認された。
論文 参考訳(メタデータ) (2024-09-18T11:34:28Z) - ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。
ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文 参考訳(メタデータ) (2024-08-28T02:47:27Z) - Mistral-SPLADE: LLMs for better Learned Sparse Retrieval [7.652738829153342]
本稿では,意味的キーワード拡張学習にデコーダのみを用いたモデルを提案する。
我々はMistralをバックボーンとして,SPLADEに似たLearned Sparse Retrieverを開発した。
提案実験は,デコーダのみに基づくスパース検索モデル (LLM) が既存のLSRシステムの性能を上回るという仮説を支持する。
論文 参考訳(メタデータ) (2024-08-20T18:21:54Z) - DeciMamba: Exploring the Length Extrapolation Potential of Mamba [89.07242846058023]
本研究では,マンバに特化して設計された文脈拡張手法であるDeciMambaを紹介する。
DeciMambaは、トレーニング中に見たものよりも25倍長く、余分な計算資源を使わずに、コンテキスト長を外挿できることを示す。
論文 参考訳(メタデータ) (2024-06-20T17:40:18Z) - Decision Mamba: Reinforcement Learning via Hybrid Selective Sequence Modeling [13.253878928833688]
テキスト内強化学習のための決定マンバ・ヒブリッド(DM-H)を提案する。
DM-Hは、マンバモデルを介して長期記憶から高価値のサブゴールを生成する。
長期タスクにおけるDM-Hのオンラインテストは、トランスフォーマーベースのベースラインよりも28$times$speedである。
論文 参考訳(メタデータ) (2024-05-31T10:41:03Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [72.46396769642787]
ネスト構造であるMamba-in-Mamba(MiM-ISTD)を開発した。
MiM-ISTDはSOTA法より8倍高速で、2048×2048$のイメージでテストすると、GPUメモリ使用率を62.2$%削減する。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。