論文の概要: Evaluating the Effectiveness and Scalability of LLM-Based Data Augmentation for Retrieval
- arxiv url: http://arxiv.org/abs/2509.16442v1
- Date: Fri, 19 Sep 2025 21:43:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.7921
- Title: Evaluating the Effectiveness and Scalability of LLM-Based Data Augmentation for Retrieval
- Title(参考訳): LLMに基づく検索のためのデータ拡張の有効性と拡張性の評価
- Authors: Pranjal A. Chitale, Bishal Santra, Yashoteja Prabhu, Amit Sharma,
- Abstract要約: 検索における大規模言語モデル拡張の有効性について検討する。
より小さなLLMによる拡張は、より大きな拡張モデルと競合する性能を実現することができる。
私たちの洞察は、より司法的で効率的な拡張戦略の道を開くものです。
- 参考スコア(独自算出の注目度): 11.76553680361078
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Compact dual-encoder models are widely used for retrieval owing to their efficiency and scalability. However, such models often underperform compared to their Large Language Model (LLM)-based retrieval counterparts, likely due to their limited world knowledge. While LLM-based data augmentation has been proposed as a strategy to bridge this performance gap, there is insufficient understanding of its effectiveness and scalability to real-world retrieval problems. Existing research does not systematically explore key factors such as the optimal augmentation scale, the necessity of using large augmentation models, and whether diverse augmentations improve generalization, particularly in out-of-distribution (OOD) settings. This work presents a comprehensive study of the effectiveness of LLM augmentation for retrieval, comprising over 100 distinct experimental settings of retrieval models, augmentation models and augmentation strategies. We find that, while augmentation enhances retrieval performance, its benefits diminish beyond a certain augmentation scale, even with diverse augmentation strategies. Surprisingly, we observe that augmentation with smaller LLMs can achieve performance competitive with larger augmentation models. Moreover, we examine how augmentation effectiveness varies with retrieval model pre-training, revealing that augmentation provides the most benefit to models which are not well pre-trained. Our insights pave the way for more judicious and efficient augmentation strategies, thus enabling informed decisions and maximizing retrieval performance while being more cost-effective. Code and augmented datasets accompanying this work are publicly available at https://aka.ms/DAGR.
- Abstract(参考訳): コンパクトなデュアルエンコーダモデルは、その効率性とスケーラビリティのため、検索に広く利用されている。
しかし、そのようなモデルはLarge Language Model (LLM)ベースの検索モデルに比べて性能が劣ることが多い。
LLMに基づくデータ拡張は、この性能ギャップを埋める戦略として提案されているが、実世界の検索問題に対するその有効性とスケーラビリティの理解は不十分である。
既存の研究では、最適な増補スケール、大規模な増補モデルの必要性、多種多様な増補が一般化を改善するか否か、特にアウト・オブ・ディストリビューション(OOD)設定において、重要な要因を体系的に探求していない。
本研究は, 検索モデル, 拡張モデル, 拡張戦略の100以上の異なる実験的設定を含む, 検索におけるLLM拡張の有効性に関する総合的研究である。
拡張は検索性能を向上するが,その利点は,多種多様な拡張戦略であっても,一定の拡張スケールを超えて減少することがわかった。
驚いたことに、より小さなLLMによる拡張は、より大きな拡張モデルと競合する性能を実現することができる。
さらに,検索モデルの事前学習により,拡張の有効性がどう変化するかを検討し,事前学習が不十分なモデルに対して,拡張が最大限の利益をもたらすことを示した。
我々の洞察は、より司法的かつ効率的な拡張戦略の道を開いたので、よりコスト効率の良い情報決定と検索性能の最大化を可能にします。
この作業に伴うコードと拡張データセットは、https://aka.ms/DAGR.orgで公開されている。
関連論文リスト
- Reasoning of Large Language Models over Knowledge Graphs with Super-Relations [53.14275361052276]
本稿では,ReKnoSフレームワークを提案する。
我々のフレームワークの主な利点は、スーパーリレーションを通して複数のリレーションパスを含めることである。
その結果、ReKnoSは既存の最先端ベースラインよりも優れた性能を示し、平均精度は2.92%向上した。
論文 参考訳(メタデータ) (2025-03-28T06:11:04Z) - Your Language Model May Think Too Rigidly: Achieving Reasoning Consistency with Symmetry-Enhanced Training [66.48331530995786]
我々は、文脈から有用な情報を抽出する能力を向上させるデータ中心のアプローチであるsyMmetry-ENhanceD (MEND) Data Augmentationを提案する。
推論連鎖の増大を強調する既存の手法とは異なり,本手法は知識抽出段階におけるモデルロバスト性を向上させる。
論理的および算術的推論タスクの実験は、MENDが様々なクエリのバリエーションで推論性能を向上させることを示している。
論文 参考訳(メタデータ) (2025-02-25T03:03:35Z) - Does RLHF Scale? Exploring the Impacts From Data, Model, and Method [83.53178716807776]
本研究では,大規模言語モデルにおける人間のフィードバックからの強化学習のスケーリング特性について検討する。
RLHFフレームワークの主要なコンポーネント、モデルサイズ、データ構成、推論予算、およびそれらのパフォーマンスへの影響を分析します。
論文 参考訳(メタデータ) (2024-12-08T17:19:48Z) - Bigger is not Always Better: Scaling Properties of Latent Diffusion Models [46.52780730073693]
遅延拡散モデル (LDM) のスケーリング特性について, サンプリング効率に着目して検討した。
モデルサイズがサンプリング効率にどのように影響するかを,様々なサンプリングステップで詳細に調査する。
予測予算の下で運用する場合、より小さなモデルは、高品質な結果を生み出す上で、より大きな等価性を上回ることがよくあります。
論文 参考訳(メタデータ) (2024-04-01T17:59:48Z) - Data-Centric Long-Tailed Image Recognition [49.90107582624604]
ロングテールモデルは高品質なデータに対する強い需要を示している。
データ中心のアプローチは、モデルパフォーマンスを改善するために、データの量と品質の両方を強化することを目的としています。
現在、情報強化の有効性を説明するメカニズムに関する研究が不足している。
論文 参考訳(メタデータ) (2023-11-03T06:34:37Z) - Understanding when Dynamics-Invariant Data Augmentations Benefit Model-Free Reinforcement Learning Updates [3.5253513747455303]
我々は、観察された学習改善に寄与するデータ拡張(DA)の一般的な側面を同定する。
本研究では,動的不変データ拡張機能を持つスパース逆タスクに着目した。
論文 参考訳(メタデータ) (2023-10-26T21:28:50Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - LatentAugment: Dynamically Optimized Latent Probabilities of Data
Augmentation [0.0]
本研究では、最適な拡張の潜在確率を推定するtextitLatentAugment$を提案する。
実験結果から,提案手法はCIFAR-10, CIFAR-100, SVHN, ImageNetデータセットにおいて, 従来手法よりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2023-05-04T09:26:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。