Fugu-MT 論文翻訳(概要): Intermediate Distillation: Data-Efficient Distillation from Black-Box LLMs for Information Retrieval

論文の概要: Intermediate Distillation: Data-Efficient Distillation from Black-Box LLMs for Information Retrieval

arxiv url: http://arxiv.org/abs/2406.12169v1
Date: Tue, 18 Jun 2024 00:41:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 12:05:43.678195
Title: Intermediate Distillation: Data-Efficient Distillation from Black-Box LLMs for Information Retrieval
Title（参考訳）: 中間蒸留:情報検索のためのブラックボックスLCMのデータ有効蒸留
Authors: Zizhong Li, Haopeng Zhang, Jiawei Zhang,
Abstract要約: textit Intermediate Distillationは、大規模な言語モデルをブラックボックスとして扱い、革新的なLLM-ranker-retrieverパイプラインを通じて知識を蒸留する。提案手法は,1000のトレーニングインスタンスしか持たないレトリバーモデルの性能を大幅に向上させることができる。
参考スコア（独自算出の注目度）: 7.441679541836913
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent research has explored distilling knowledge from large language models (LLMs) to optimize retriever models, especially within the retrieval-augmented generation (RAG) framework. However, most existing training methods rely on extracting supervision signals from LLMs' weights or their output probabilities, which is not only resource-intensive but also incompatible with black-box LLMs. In this paper, we introduce \textit{Intermediate Distillation}, a data-efficient knowledge distillation training scheme that treats LLMs as black boxes and distills their knowledge via an innovative LLM-ranker-retriever pipeline, solely using LLMs' ranking generation as the supervision signal. Extensive experiments demonstrate that our proposed method can significantly improve the performance of retriever models with only 1,000 training instances. Moreover, our distilled retriever model significantly boosts performance in question-answering tasks within the RAG framework, demonstrating the potential of LLMs to economically and effectively train smaller models.
Abstract（参考訳）: 近年,大規模な言語モデル (LLM) から知識を抽出し,検索モデル,特に検索強化世代 (RAG) フレームワークを最適化する研究が進められている。しかし、既存のほとんどの訓練方法は、資源集約的なだけでなく、ブラックボックスのLSMと互換性のないLSMの重量や出力確率から監視信号を抽出することに依存している。本稿では, LLM をブラックボックスとして扱うデータ効率の高い知識蒸留訓練手法である \textit{Intermediate Distillation} について紹介する。大規模な実験により,1000のトレーニングインスタンスのみを用いて,提案手法により検索モデルの性能が大幅に向上できることが実証された。さらに, この蒸留レトリバーモデルにより, RAGフレームワーク内の質問応答タスクの性能が著しく向上し, 小型モデルの経済的, 効果的に訓練できる可能性が示された。

関連論文リスト

Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking [61.61356842567952]
LLMに基づくエージェントトレーニングを改善するための新しい手法STePを提案する。誤差ステップの反射や補正を含む自己反射軌道を合成する。実験により,提案手法は3つの代表的なタスクにおいてエージェント性能を向上させることが示された。
論文参考訳（メタデータ） (2025-05-26T14:11:12Z)
Sample Efficient Reinforcement Learning via Large Vision Language Model Distillation [19.48826538310603]
大規模視覚言語モデル(LVLM)からより効率的な強化学習エージェントへ知識を抽出するフレームワークであるLVLM to Policy(LVLM2P)を紹介する。提案手法はLVLMを教師として活用し,RLエージェントが収集した軌跡に基づく指導行動を提供する。 LVLM2Pは,ベースラインRLアルゴリズムのサンプル効率を大幅に向上させることを示す。
論文参考訳（メタデータ） (2025-05-16T13:15:54Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
Enhancing Reasoning through Process Supervision with Monte Carlo Tree Search [2.1637240640145343]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示している。 LLMの推論能力を改善するために、プロセスの監督は結果の監督よりも優れていることが証明されている。本研究では,モンテカルロ木探索(MCTS)を用いてLLM自体を用いてプロセス監視データを生成する。
論文参考訳（メタデータ） (2025-01-02T12:09:17Z)
Fine-Grained Guidance for Retrievers: Leveraging LLMs' Feedback in Retrieval-Augmented Generation [20.420575358183687]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)に固有の幻覚を緩和する有効な方法であることが証明されている。従来のアプローチでは、通常、RAGの最適化に欠けるセマンティックな類似性に基づいて、レトリバーをトレーニングする。我々は,LLMの言語機能を活用して,より粒度の細かい情報中心の視点からサンプルを構築する新しいフレームワークFiGRetを提案する。
論文参考訳（メタデータ） (2024-11-06T14:42:39Z)
A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文参考訳（メタデータ） (2024-10-24T14:31:52Z)
Towards Self-Improvement of LLMs via MCTS: Leveraging Stepwise Knowledge with Curriculum Preference Learning [70.16816087320585]
モンテカルロ木探索 (MCTS) はLLMの推論能力を高める強力な手法として登場した。既存の蒸留法はMCTSによって生成された豊富な軌跡情報を利用する。提案するAlphaLLM-CPLは, LLMがMCTSの挙動蒸留により自己改善できる新しいペアワイズトレーニングフレームワークである。
論文参考訳（メタデータ） (2024-10-09T03:20:02Z)
LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation [41.05687297326706]
LLaVA-MoDは、小規模マルチモーダル言語モデルの効率的なトレーニングを可能にするために設計されたフレームワークである。スパースミキサーアーキテクチャを言語モデルに統合することにより、s-MLLMのネットワーク構造を最適化する。また,包括的知識移動を確保するために,先進的な知識移動戦略を提案する。
論文参考訳（メタデータ） (2024-08-28T15:52:23Z)
CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。そこで本研究では,学習バランスを定量的に評価する尺度を提案する。さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文参考訳（メタデータ） (2024-07-29T23:18:55Z)
GOLD: Generalized Knowledge Distillation via Out-of-Distribution-Guided Language Data Generation [21.56082253577229]
金はタスクに依存しないデータ生成および知識蒸留フレームワークである。 LLMには反復的なアウト・オブ・ディストリビューション誘導フィードバック機構が採用されている。ノイズ発生データを扱うためのエネルギーベースOOD評価手法も導入されている。
論文参考訳（メタデータ） (2024-03-28T18:08:22Z)
Mind's Mirror: Distilling Self-Evaluation Capability and Comprehensive Thinking from Large Language Models [20.28989820878285]
大規模言語モデル (LLM) は自然言語処理において顕著な進歩を遂げている。これらのモデルの大規模かつ計算的な要求は、資源に制約のある環境での実践的展開を考えると、大きな課題となる。
論文参考訳（メタデータ） (2023-11-15T18:56:23Z)
Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。我々は「反射チューニング」と呼ばれる新しい手法を提案する。このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文参考訳（メタデータ） (2023-10-18T05:13:47Z)
From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文参考訳（メタデータ） (2023-08-23T09:45:29Z)
On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文参考訳（メタデータ） (2023-05-23T16:56:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。