論文の概要: LMAR: Language Model Augmented Retriever for Domain-specific Knowledge Indexing
- arxiv url: http://arxiv.org/abs/2508.05672v2
- Date: Fri, 12 Sep 2025 17:32:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 14:04:03.048503
- Title: LMAR: Language Model Augmented Retriever for Domain-specific Knowledge Indexing
- Title(参考訳): LMAR:ドメイン固有の知識インデクシングのための言語モデル拡張レトリバー
- Authors: Yao Zhao, Yantian Ding, Zhiyue Zhang, Dapeng Yao, Yanxun Xu,
- Abstract要約: Retrieval Augmented Generation (RAG) システムは、事前訓練された埋め込みの性能劣化のためにドメイン固有の知識に苦しむことが多い。
LLM誘導データ合成と対比埋め込み適応と効率的なテキストクラスタリングを組み合わせることで、これらの課題に対処するモデルに依存しないフレームワークであるLMAR(Language Model Augmented Retriever)を提案する。
- 参考スコア(独自算出の注目度): 42.51773265892766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval Augmented Generation (RAG) systems often struggle with domain-specific knowledge due to performance deterioration of pre-trained embeddings and prohibitive computational costs of large language model (LLM)-based retrievers. While fine-tuning data augmentation embedding models offers a promising direction, its effectiveness is limited by the need for high-quality training data and reliable chunking strategies that preserve contextual integrity. We propose LMAR (Language Model Augmented Retriever), a model-agnostic framework that addresses these challenges by combining LLM-guided data synthesis with contrastive embedding adaptation and efficient text clustering. LMAR consists of a two-stage pipeline: (1) Triplet sampling and synthetic data augmentation, where LLMs act as both labeler and validator to ensure high-fidelity supervision throughout the pipeline. Experimental results across multiple domain-specific benchmark datasets demonstrate that LMAR outperforms multiple baseline models, while maintaining moderate hardware requirements and low latency. Its model-agnostic nature further enables seamless integration with emerging RAG architectures and text embedding models, ensuring continual improvements without redesigning the pipeline. These results highlight LMAR as a practical and cost-effective solution for scalable domain-specific adaptation.
- Abstract(参考訳): Retrieval Augmented Generation (RAG) システムは、事前訓練された埋め込みの性能低下や、大規模言語モデル(LLM)ベースの検索処理の禁止的な計算コストのために、ドメイン固有の知識に苦しむことが多い。
微調整データ拡張埋め込みモデルは有望な方向を提供するが、その有効性は、高品質なトレーニングデータと、コンテキスト整合性を維持する信頼性の高いチャンキング戦略の必要性によって制限される。
LLM誘導データ合成と対比埋め込み適応と効率的なテキストクラスタリングを組み合わせることで、これらの課題に対処するモデルに依存しないフレームワークであるLMAR(Language Model Augmented Retriever)を提案する。
LMARは2段階のパイプラインで構成されている: 1) トリプルトサンプリングと合成データ拡張。
複数のドメイン固有のベンチマークデータセットに対する実験結果から、LMARは、適度なハードウェア要件と低レイテンシを維持しながら、複数のベースラインモデルを上回っていることが示された。
モデルに依存しない性質により、新たなRAGアーキテクチャやテキスト埋め込みモデルとのシームレスな統合が可能になり、パイプラインを再設計することなく継続的な改善が保証される。
これらの結果は、スケーラブルなドメイン固有適応のための実用的で費用対効果の高いソリューションとして、LMARを強調している。
関連論文リスト
- AsynDBT: Asynchronous Distributed Bilevel Tuning for efficient In-Context Learning with Large Language Models [4.4866154758274375]
In-context Learning (ICL) は、LLMが入力内で提供される例を使って新しいタスクに適応できる有望なパラダイムとして登場した。
ICLを組み込んだ以前のFLアプローチは、重度のストラグラー問題と、異種非同一データに関連する課題に悩まされてきた。
本稿では,LLMからのフィードバックに基づいて,文脈内学習サンプルの最適化とフラグメントのプロンプトを行う非同期分散バイレベルチューニング(AsynDBT)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-02-06T13:07:49Z) - MARAG-R1: Beyond Single Retriever via Reinforcement-Learned Multi-Tool Agentic Retrieval [50.30107119622642]
大規模言語モデル(LLM)は推論と生成において優れているが、本質的には静的事前学習データによって制限されている。
Retrieval-Augmented Generation (RAG)は、LLMを外部知識に基盤を置くことでこの問題に対処する。
MarAG-R1は、LLMが複数の検索機構を動的に調整できる強化学習型マルチツールRAGフレームワークである。
論文 参考訳(メタデータ) (2025-10-31T15:51:39Z) - RECALL: REpresentation-aligned Catastrophic-forgetting ALLeviation via Hierarchical Model Merging [33.22889542330089]
大規模言語モデル(LLM)の内部表現は、学習知識の信頼できるプロキシとして機能する。
本稿では,過去データにアクセスせずに連続的な学習を行うための表現認識モデル統合フレームワークRECALLを提案する。
論文 参考訳(メタデータ) (2025-10-23T12:17:37Z) - GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。
抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。
提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-20T02:38:00Z) - Limited Reference, Reliable Generation: A Two-Component Framework for Tabular Data Generation in Low-Data Regimes [7.036974567001374]
ReFineは、ドメイン固有の機能の配布に向けて生成をガイドするフレームワークである。
様々な回帰と分類のベンチマークの実験では、ReFineは最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-12T04:34:46Z) - Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers [103.4410890572479]
スケーラブルな合成データ生成と検証のためのオープンソースのフレームワークであるLoong Projectを紹介します。
LoongBenchは、12のドメインにまたがる8,729の人為的なサンプルを含む、キュレートされたシードデータセットである。
LoongEnvはモジュラー合成データ生成環境であり、新しい質問応答コードのトリプルを生成する複数のプロンプト戦略をサポートする。
論文 参考訳(メタデータ) (2025-09-03T06:42:40Z) - Let Synthetic Data Shine: Domain Reassembly and Soft-Fusion for Single Domain Generalization [68.41367635546183]
単一ドメインの一般化は、単一のソースからのデータを使用して、さまざまなシナリオで一貫したパフォーマンスでモデルをトレーニングすることを目的としている。
モデル一般化を改善するために合成データを活用した学習フレームワークDRSFを提案する。
論文 参考訳(メタデータ) (2025-03-17T18:08:03Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [61.99353167168545]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - A Text-Based Knowledge-Embedded Soft Sensing Modeling Approach for General Industrial Process Tasks Based on Large Language Model [16.842988666530204]
データ駆動型ソフトセンサー(DDSS)は、プロセス産業において重要なパフォーマンス指標を予測する主要な手法となっている。
開発には、モデリングプロセス中に様々なタスクに合わせてカスタマイズされた複雑でコストがかかる設計が必要である。
本稿では,LLM-TKESS(テキストベース知識埋め込み型ソフトセンシングのための大規模言語モデル)というフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-09T08:59:14Z) - SimRAG: Self-Improving Retrieval-Augmented Generation for Adapting Large Language Models to Specialized Domains [45.349645606978434]
Retrieval-augmented Generation (RAG) は大規模言語モデル(LLM)の質問応答能力を向上させる
ドメイン適応のための質問応答と質問生成のジョイント機能を備えた自己学習手法であるSimRAGを提案する。
2つのバックボーンサイズと3つのドメインにまたがる11のデータセットの実験は、SimRAGがベースラインを1.2%~8.6%上回ることを示した。
論文 参考訳(メタデータ) (2024-10-23T15:24:16Z) - Auto-GDA: Automatic Domain Adaptation for Efficient Grounding Verification in Retrieval-Augmented Generation [13.120801609024147]
検索強化生成(RAG)は,大規模言語モデル(LLM)出力の事実性を高めることが示されている。
RAG入力は、NLIモデルのトレーニングに使用されるほとんどのデータセットよりも複雑である。
教師なし領域適応を実現するために自動生成適応(Auto-GDA)を導入する。
論文 参考訳(メタデータ) (2024-10-04T14:21:27Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。