論文の概要: DRAMA: Diverse Augmentation from Large Language Models to Smaller Dense Retrievers
- arxiv url: http://arxiv.org/abs/2502.18460v1
- Date: Tue, 25 Feb 2025 18:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:19:10.401220
- Title: DRAMA: Diverse Augmentation from Large Language Models to Smaller Dense Retrievers
- Title(参考訳): DRAMA: 大規模言語モデルからより小さなDense Retrieverへの拡張
- Authors: Xueguang Ma, Xi Victoria Lin, Barlas Oguz, Jimmy Lin, Wen-tau Yih, Xilun Chen,
- Abstract要約: 大規模言語モデル(LLM)は、高密度レトリバーとして微調整されている間、強い有効性と堅牢性を示している。
LLMは効率が良いが、教師付き微調整データで効率的に一般化できないことが多い。
我々は、LLMを活用してより小さな一般化可能な高密度レトリバーを訓練するトレーニングフレームワークであるDRAMAを紹介する。
- 参考スコア(独自算出の注目度): 86.54316283425001
- License:
- Abstract: Large language models (LLMs) have demonstrated strong effectiveness and robustness while fine-tuned as dense retrievers. However, their large parameter size brings significant inference time computational challenges, including high encoding costs for large-scale corpora and increased query latency, limiting their practical deployment. While smaller retrievers offer better efficiency, they often fail to generalize effectively with limited supervised fine-tuning data. In this work, we introduce DRAMA, a training framework that leverages LLMs to train smaller generalizable dense retrievers. In particular, we adopt pruned LLMs as the backbone and train on diverse LLM-augmented data in a single-stage contrastive learning setup. Experiments show that DRAMA offers better multilingual and long-context capabilities than traditional encoder-based retrievers, and achieves strong performance across multiple tasks and languages. These highlight the potential of connecting the training of smaller retrievers with the growing advancements in LLMs, bridging the gap between efficiency and generalization.
- Abstract(参考訳): 大規模言語モデル(LLM)は、高密度レトリバーとして微調整されている間、強い有効性と堅牢性を示している。
しかし、その大きなパラメータサイズは、大規模なコーパスのエンコーディングコストが高く、クエリレイテンシが増加し、実際のデプロイメントが制限されるなど、推論時間の計算上の大きな課題をもたらす。
より小型のレトリバーは効率が良いが、教師付き微調整データで効果的に一般化できないことが多い。
本研究では,LLMを利用してより小型で一般化可能な高密度レトリバーを学習する訓練フレームワークDRAMAを紹介する。
特に,pruned LLMをバックボーンとして採用し,単一段階のコントラスト学習環境において,多様なLLM拡張データをトレーニングする。
実験によると、DRAMAは従来のエンコーダベースのレトリバーよりも多言語と長文の能力があり、複数のタスクや言語で高いパフォーマンスを実現する。
これらのことは、より小さなレトリバーのトレーニングとLLMの進歩を結びつけ、効率と一般化のギャップを埋める可能性を強調している。
関連論文リスト
- Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages [10.418542753869433]
低リソース言語(LRL)は、限られたデータのために自然言語処理(NLP)において重大な課題に直面している。
現在の最先端の大規模言語モデル(LLM)は、まだLRLと競合している。
mBERTやXLM-Rのような小さなマルチリンガルモデル(mLM)は、トレーニングデータサイズに適合する能力が向上するため、より有望である。
論文 参考訳(メタデータ) (2025-02-14T13:10:39Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Fine-Grained Guidance for Retrievers: Leveraging LLMs' Feedback in Retrieval-Augmented Generation [20.420575358183687]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)に固有の幻覚を緩和する有効な方法であることが証明されている。
従来のアプローチでは、通常、RAGの最適化に欠けるセマンティックな類似性に基づいて、レトリバーをトレーニングする。
我々は,LLMの言語機能を活用して,より粒度の細かい情報中心の視点からサンプルを構築する新しいフレームワークFiGRetを提案する。
論文 参考訳(メタデータ) (2024-11-06T14:42:39Z) - Why Does the Effective Context Length of LLMs Fall Short? [68.34573617977013]
本稿では,SifTed Rotray 位置埋め込み (STRING) について紹介する。
ストリングは、トレーニング中の元の非効率な位置を上書きするために、よく訓練された位置をシフトし、既存のトレーニング期間内でのパフォーマンスを向上させる。
実験結果から, STRINGは最新の大規模モデルの性能を劇的に向上させることがわかった。
論文 参考訳(メタデータ) (2024-10-24T13:51:50Z) - Large Language Models as Foundations for Next-Gen Dense Retrieval: A Comprehensive Empirical Assessment [16.39696580487218]
BERTやT5のような事前訓練された言語モデルは、高密度検索のための重要なバックボーンエンコーダとして機能する。
近年,大規模言語モデル (LLM) をレトリバーとして使用し,様々なタスクでSOTA性能を達成している。
論文 参考訳(メタデータ) (2024-08-22T08:16:07Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - ARL2: Aligning Retrievers for Black-box Large Language Models via Self-guided Adaptive Relevance Labeling [20.022332182475672]
ARL2は、大規模な言語モデルをラベル付けとして活用するレトリバー学習技術である。
ARL2は適応的な自己学習戦略を用いて、高品質で多様な関連データをキュレートする。
実験はARL2の有効性を示し、NQでは5.4%、MMLUでは4.6%の精度向上を実現した。
論文 参考訳(メタデータ) (2024-02-21T05:41:34Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。