論文の概要: LLMQuoter: Enhancing RAG Capabilities Through Efficient Quote Extraction From Large Contexts
- arxiv url: http://arxiv.org/abs/2501.05554v1
- Date: Thu, 09 Jan 2025 20:01:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:28:33.210304
- Title: LLMQuoter: Enhancing RAG Capabilities Through Efficient Quote Extraction From Large Contexts
- Title(参考訳): LLMQuoter: 大規模コンテキストからの効率的なクエント抽出によるRAG機能向上
- Authors: Yuri Facanha Bezerra, Li Weigang,
- Abstract要約: LLMQuoterは、レトリーバル拡張生成(RAG)を強化するために設計された軽量蒸留モデルである。
LLaMA-3Bアーキテクチャをベースとして、HotpotQAの15,000サンプルのサブセット上にLoRA(Lo-Rank Adaptation)を微調整し、LLMQuoterは"quote-first-then-answer"戦略を採用し、キュレートされたスニペットを推論モデルに渡す前に重要な引用を効率的に識別する。
このワークフローは認知的オーバーヘッドを減らし、Retrieval-Augmented Fine-Tuning (RAFT)のようなフルコンテキストアプローチを上回り、小言語と大言語の両方で20ポイント以上の精度向上を達成する。
- 参考スコア(独自算出の注目度): 2.685668802278156
- License:
- Abstract: We introduce LLMQuoter, a lightweight, distillation-based model designed to enhance Retrieval Augmented Generation (RAG) by extracting the most relevant textual evidence for downstream reasoning tasks. Built on the LLaMA-3B architecture and fine-tuned with Low-Rank Adaptation (LoRA) on a 15,000-sample subset of HotpotQA, LLMQuoter adopts a "quote-first-then-answer" strategy, efficiently identifying key quotes before passing curated snippets to reasoning models. This workflow reduces cognitive overhead and outperforms full-context approaches like Retrieval-Augmented Fine-Tuning (RAFT), achieving over 20-point accuracy gains across both small and large language models. By leveraging knowledge distillation from a high-performing teacher model, LLMQuoter achieves competitive results in a resource-efficient fine-tuning setup. It democratizes advanced RAG capabilities, delivering significant performance improvements without requiring extensive model retraining. Our results highlight the potential of distilled quote-based reasoning to streamline complex workflows, offering a scalable and practical solution for researchers and practitioners alike.
- Abstract(参考訳): LLMQuoterは,下流推論タスクの最も関連性の高いテキスト証拠を抽出し,レトリーバル拡張生成(RAG)を向上させるために設計された軽量蒸留モデルである。
LLaMA-3Bアーキテクチャをベースとして、HotpotQAの15,000サンプルのサブセット上にLoRA(Lo-Rank Adaptation)を微調整し、LLMQuoterは"quote-first-then-answer"戦略を採用し、キュレートされたスニペットを推論モデルに渡す前に重要な引用を効率的に識別する。
このワークフローは認知的オーバーヘッドを減らし、Retrieval-Augmented Fine-Tuning (RAFT)のようなフルコンテキストアプローチを上回り、小規模および大規模言語モデルの両方で20ポイント以上の精度向上を達成する。
LLMQuoterは高い性能の教師モデルから知識を蒸留することにより、資源効率の良い微調整装置で競争結果を得る。
高度なRAG機能を民主化し、大規模なモデル再トレーニングを必要とせず、大幅なパフォーマンス向上を実現している。
この結果は、複雑なワークフローを合理化し、研究者や実践者にもスケーラブルで実践的なソリューションを提供するための、蒸留された引用に基づく推論の可能性を強調します。
関連論文リスト
- Simple is Effective: The Roles of Graphs and Large Language Models in Knowledge-Graph-Based Retrieval-Augmented Generation [9.844598565914055]
大きな言語モデル(LLM)は強い推論能力を示すが、幻覚や時代遅れの知識のような制限に直面している。
本稿では、サブグラフを検索する知識グラフ(KG)ベースのRetrieval-Augmented Generation(RAG)フレームワークを拡張するSubgraphRAGを紹介する。
提案手法は,高効率かつフレキシブルなサブグラフ検索を実現するために,並列3重装飾機構を備えた軽量多層パーセプトロンを革新的に統合する。
論文 参考訳(メタデータ) (2024-10-28T04:39:32Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG [36.754491649652664]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)に外部の知識ソースを利用する権限を与える。
本稿では, 回収した「ハードネガティブ」の有害な影響について考察する。
これを緩和し、長文LLMベースのRAGの堅牢性を高めるために、トレーニングフリーとトレーニングベースの両方のアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-08T12:30:07Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting [68.90949377014742]
Speculative RAG(投機的RAG)は、より大規模なジェネラリストLMを利用して、より小さな蒸留専門のLMによって並列に生成された複数のRAGドラフトを効率よく検証するフレームワークである。
提案手法は,より小さな専門家のLMにドラフト作成を委譲することでRAGを加速し,より大きなジェネラリストのLMがドラフトに1回の検証パスを実行する。
PubHealthの従来のRAGシステムと比較して、レイテンシを51%削減しながら、最大12.97%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-07-11T06:50:19Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Effective Large Language Model Adaptation for Improved Grounding and Citation Generation [48.07830615309543]
本稿では,検索した文の応答を基底にして,引用を提供することにより,大規模言語モデル(LLM)の改善に焦点を当てる。
我々は、全体論的観点から基盤を改善する新しいフレームワーク AGREE を提案する。
我々のフレームワークは, LLMを調整し, その要求を自己評価し, 検索した文書に正確な引用を提供する。
論文 参考訳(メタデータ) (2023-11-16T03:22:25Z) - Routing to the Expert: Efficient Reward-guided Ensemble of Large
Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。
さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文 参考訳(メタデータ) (2023-11-15T04:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。