論文の概要: Align then Train: Efficient Retrieval Adapter Learning
- arxiv url: http://arxiv.org/abs/2604.03403v1
- Date: Fri, 03 Apr 2026 19:04:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.558763
- Title: Align then Train: Efficient Retrieval Adapter Learning
- Title(参考訳): Align then Train: 効率的な検索アダプタ学習
- Authors: Seiji Maekawa, Moin Aminnaseri, Pouya Pezeshkpour, Estevam Hruschka,
- Abstract要約: 本稿では,自己教師付きアライメントと教師付きアライメントの2つの段階において,検索アダプタを訓練するラベル効率のフレームワークを提案する。
MAIRベンチマークの実験は、6つのドメインで126の検索タスクにまたがっており、ERAが低ラベル設定での検索を改善することを示している。
- 参考スコア(独自算出の注目度): 16.855103318831073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense retrieval systems increasingly need to handle complex queries. In many realistic settings, users express intent through long instructions or task-specific descriptions, while target documents remain relatively simple and static. This asymmetry creates a retrieval mismatch: understanding queries may require strong reasoning and instruction-following, whereas efficient document indexing favors lightweight encoders. Existing retrieval systems often address this mismatch by directly improving the embedding model, but fine-tuning large embedding models to better follow such instructions is computationally expensive, memory-intensive, and operationally burdensome. To address this challenge, we propose Efficient Retrieval Adapter (ERA), a label-efficient framework that trains retrieval adapters in two stages: self-supervised alignment and supervised adaptation. Inspired by the pre-training and supervised fine-tuning stages of LLMs, ERA first aligns the embedding spaces of a large query embedder and a lightweight document embedder, and then uses limited labeled data to adapt the query-side representation, bridging both the representation gap between embedding models and the semantic gap between complex queries and simple documents without re-indexing the corpus. Experiments on the MAIR benchmark, spanning 126 retrieval tasks across 6 domains, show that ERA improves retrieval in low-label settings, outperforms methods that rely on larger amounts of labeled data, and effectively combines stronger query embedders with weaker document embedders across domains.
- Abstract(参考訳): デンス検索システムは複雑なクエリを扱う必要がますます高まっている。
多くの現実的な設定では、ユーザは長い指示やタスク固有の記述を通じて意図を表現するが、ターゲット文書は比較的シンプルで静的である。
この非対称性は検索ミスマッチを生成する:クエリを理解するには強い推論と命令追従が必要であるが、効率的な文書インデックス付けは軽量エンコーダを好む。
既存の検索システムは、直接埋め込みモデルを改善することで、このミスマッチに対処することが多いが、そのような命令に従うための微調整された大規模な埋め込みモデルは、計算コストが高く、メモリ集約的で、運用上の負担がかかる。
この課題に対処するために,自己教師付きアライメントと教師付きアライメントの2段階において,検索アダプタを訓練するラベル効率の高いフレームワークであるERA(Efficient Retrieval Adapter)を提案する。
LLMの事前トレーニングと教師付き微調整の段階に触発されて、ERAはまず、大きなクエリ埋め込みと軽量ドキュメント埋め込みの埋め込み空間を整列し、その後、限定ラベル付きデータを使用してクエリ側表現を適用し、埋め込みモデルと複雑なクエリと単純なドキュメント間のセマンティックギャップの間の表現ギャップを、コーパスを再インデックスすることなくブリッジする。
MAIRベンチマークの実験は、6つのドメインにまたがる126の検索タスクにまたがって、ERAが低ラベル設定での検索を改善し、大量のラベル付きデータに依存するメソッドを上回り、より強力なクエリ埋め込みとドメイン間の弱いドキュメント埋め込みを効果的に組み合わせていることを示している。
関連論文リスト
- AnnoRetrieve: Efficient Structured Retrieval for Unstructured Document Analysis [11.689256498133446]
埋め込みから構造化アノテーションへ移行する新しい検索パラダイムであるAnnoRetrieveを提案する。
提案システムは,高コストなベクトル比較を,自動生成スキーマよりも軽量な構造化クエリに置き換える。
AnoRetrieveは、インテリジェントな構造化を通じて、コスト効率、正確、スケーラブルなドキュメント分析のための新しいパラダイムを確立している。
論文 参考訳(メタデータ) (2026-04-03T03:34:19Z) - LITTA: Late-Interaction and Test-Time Alignment for Visually-Grounded Multimodal Retrieval [0.0]
LITTAは、エビデンスページ検索のためのクエリ拡張中心の検索フレームワークである。
ユーザクエリが与えられた後、LITTAは大きな言語モデルを使用して補完的なクエリ変種を生成する。
拡張されたクエリからの候補は、エビデンスカバレッジを改善するために、相互のランクフュージョンを通じて集約される。
論文 参考訳(メタデータ) (2026-03-10T13:25:39Z) - BookRAG: A Hierarchical Structure-aware Index-based Approach for Retrieval-Augmented Generation on Complex Documents [11.158307125677375]
Retrieval-Augmented Generation (RAG)は、外部の複雑なドキュメントから非常に関連性の高い情報をクエリする。
本稿では,階層構造を持つ文書を対象とした新しいRAG手法であるBookRAGを紹介する。
BookRAGは最先端のパフォーマンスを実現し、検索リコールとQA精度の両方において、ベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-12-03T03:40:49Z) - URaG: Unified Retrieval and Generation in Multimodal LLMs for Efficient Long Document Understanding [55.45331924836242]
MLLM内での検索と生成を統一するフレームワークであるURaGについて述べる。
URaGは,計算オーバーヘッドを44~56%削減し,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-13T17:54:09Z) - Cluster-based Adaptive Retrieval: Dynamic Context Selection for RAG Applications [8.946586077722822]
クラスタベースのAdaptive Retrieval (CAR) は、順序付きクエリ文書類似度距離のクラスタリングパターンを分析して、最適な文書数を決定するアルゴリズムである。
CARは、常に最適な検索深度を選択し、最高TESスコアを達成し、固定されたトップkベースラインを全て上回る。
論文 参考訳(メタデータ) (2025-10-02T05:11:12Z) - Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - Improving Document Retrieval Coherence for Semantically Equivalent Queries [63.97649988164166]
同じ文書を検索する際のモデルのコヒーレンスを改善する訓練DRにおける多段階ランク付け損失のバリエーションを提案する。
この損失は、多様だがセマンティックな等価なクエリのために検索されたトップkランクのドキュメント間の不一致を罰する。
論文 参考訳(メタデータ) (2025-08-11T13:34:59Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。