論文の概要: The Surprising Soupability of Documents in State Space Models
- arxiv url: http://arxiv.org/abs/2505.24033v1
- Date: Thu, 29 May 2025 22:13:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.68206
- Title: The Surprising Soupability of Documents in State Space Models
- Title(参考訳): 状態空間モデルにおける文書のサプライズ化可能性
- Authors: Yasaman Jafari, Zixian Wang, Leon Bergen, Taylor Berg-Kirkpatrick,
- Abstract要約: そこで本研究では,文書を独立に符号化し,その表現をプールする手法を提案する。
我々はMamba2モデルを微調整し、スープ可能な表現を生成し、マルチホップQA、スパース検索、長い文書推論を高い精度でサポートする。
HotpotQAでは、10個の独立したエンコードされたドキュメントが、同じ入力でトレーニングされたクロスエンコーダのパフォーマンスとほぼ一致している。
- 参考スコア(独自算出の注目度): 28.95633840848728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate whether hidden states from Structured State Space Models (SSMs) can be merged post-hoc to support downstream reasoning. Inspired by model souping, we propose a strategy where documents are encoded independently and their representations are pooled -- via simple operations like averaging -- into a single context state. This approach, which we call document souping, enables modular encoding and reuse without reprocessing the full input for each query. We finetune Mamba2 models to produce soupable representations and find that they support multi-hop QA, sparse retrieval, and long-document reasoning with strong accuracy. On HotpotQA, souping ten independently encoded documents nearly matches the performance of a cross-encoder trained on the same inputs.
- Abstract(参考訳): 我々は、下流推論をサポートするために、構造化状態空間モデル(SSM)の隠れ状態がポストホックにマージできるかどうかを検討する。
ドキュメントを独立してエンコードし、それらの表現を -- 平均化のような単純な操作を通じて -- 単一のコンテキスト状態にプールする戦略を提案する。
このアプローチはドキュメントスープングと呼ばれ、各クエリの完全な入力を再処理することなく、モジュール化されたエンコーディングと再利用を可能にします。
我々はMamba2モデルを微調整し、スープ可能な表現を生成し、マルチホップQA、スパース検索、長い文書推論を高い精度でサポートする。
HotpotQAでは、10個の独立したエンコードされたドキュメントが、同じ入力でトレーニングされたクロスエンコーダのパフォーマンスとほぼ一致している。
関連論文リスト
- Doc-CoB: Enhancing Multi-Modal Document Understanding with Visual Chain-of-Boxes Reasoning [12.17399365931]
既存の1パスのMLLMは、クエリの関連性を考慮せずに、ドキュメントイメージ全体を処理します。
そこで我々は,ヒトの視覚的推論をMLLMに組み込むシンプルな効果メカニズムであるDoc-CoBを紹介した。
提案手法では,クエリに最も関連性の高い領域群を自律的に選択し,さらに理解するためにそれらに注意を集中することができる。
論文 参考訳(メタデータ) (2025-05-24T08:53:05Z) - Learning More Effective Representations for Dense Retrieval through Deliberate Thinking Before Search [65.53881294642451]
ディリベレート思考に基づくDense Retriever (DEBATER)
DEBATERは、ステップバイステップの思考プロセスを通じて、より効果的な文書表現を学習できるようにすることにより、最近の密集型検索機能を強化している。
実験の結果,DEBATERはいくつかのベンチマークで既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - RetroMAE-2: Duplex Masked Auto-Encoder For Pre-Training
Retrieval-Oriented Language Models [12.37229805276939]
本稿では,DupMAE(Duplex Masked Auto-Encoder)と呼ばれる新しい事前学習手法を提案する。
事前訓練されたモデルのすべてのコンテキスト化埋め込みを活用できる品質意味表現を改善するように設計されている。
論文 参考訳(メタデータ) (2023-05-04T05:37:22Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Long Document Re-ranking with Modular Re-ranker [15.935423344245363]
BERTのようなディープ言語モデルに基づくニューラルリランカにとって、長いドキュメント再ランクは難しい問題だった。
本稿では,アテンション操作とモジュラートランスフォーマー・リランカ・フレームワークを活用した,完全な問合せ-文書間相互作用のモデル化を提案する。
論文 参考訳(メタデータ) (2022-05-09T13:44:02Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Tradeoffs in Sentence Selection Techniques for Open-Domain Question
Answering [54.541952928070344]
文選択のためのモデルの2つのグループについて述べる。QAベースのアプローチは、解答候補を特定するための完全なQAシステムを実行し、検索ベースのモデルは、各質問に特に関連する各節の一部を見つける。
非常に軽量なQAモデルは、このタスクではうまく機能するが、検索ベースモデルは高速である。
論文 参考訳(メタデータ) (2020-09-18T23:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。