論文の概要: DPF-CM: A Data Processing Framework with Privacy-Preserving Vector Databases for Chinese Medical LLMs Training and Deployment
- arxiv url: http://arxiv.org/abs/2509.01354v1
- Date: Mon, 01 Sep 2025 10:49:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.652168
- Title: DPF-CM: A Data Processing Framework with Privacy-Preserving Vector Databases for Chinese Medical LLMs Training and Deployment
- Title(参考訳): DPF-CM:中国医学LLMのトレーニングと展開のためのプライバシ保護ベクタデータベースを用いたデータ処理フレームワーク
- Authors: Wei Huang, Anda Cheng, Zhao Zhang, Yinggui Wang,
- Abstract要約: DPF-CMは中国医学モデルのデータ処理フレームワークである。
First Moduleは、モデルトレーニング用に調整されたデータ処理パイプラインである。
第2のモジュールは、モデルデプロイメント時のプライバシ保護に焦点を当てている。
- 参考スコア(独自算出の注目度): 13.757046926346936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current open-source training pipelines for Chinese medical language models predominantly emphasize optimizing training methodologies to enhance the performance of large language models (LLMs), yet lack comprehensive exploration into training data processing. To address this gap, we propose DPF-CM, a holistic Data Processing Framework for Chinese Medical LLMs training and deployment. DPF-CM comprises two core modules. The first module is a data processing pipeline tailored for model training. Beyond standard data processing operations, we (1) introduce a chained examples context-learning strategy to generate question-oriented instructions to mitigate the lack of instruction content, and (2) implement an ensemble-based filtering mechanism for preference data curation that averages multiple reward models to suppress noisy samples. The second module focuses on privacy preservation during model deployment. To prevent privacy risks from the inadvertent exposure of training data, we propose a Privacy Preserving Vector Database (PPVD) approach, which involves model memory search, high-risk database construction, secure database construction, and match-and-replace, four key stages to minimize privacy leakage during inference collectively. Experimental results show that DPF-CM significantly improves model accuracy, enabling our trained Chinese medical LLM to achieve state-of-the-art performance among open-source counterparts. Moreover, the framework reduces training data privacy leakage by 27%.
- Abstract(参考訳): 現在の中国医学モデルのオープンソーストレーニングパイプラインは、大規模言語モデル(LLM)の性能向上のためにトレーニング方法論の最適化を主に重視しているが、トレーニングデータ処理に関する包括的な調査は欠如している。
このギャップに対処するため,中国医学LLMのトレーニングと展開のための総合データ処理フレームワークDPF-CMを提案する。
DPF-CMは2つのコアモジュールからなる。
最初のモジュールは、モデルトレーニング用に調整されたデータ処理パイプラインである。
標準的なデータ処理操作以外にも,(1)指示内容の欠如を軽減するための質問指向の指示を生成する連鎖した事例学習戦略を導入し,(2)複数の報奨モデルを平均化しノイズのあるサンプルを抑える選好データキュレーションのためのアンサンブルベースのフィルタリング機構を実装した。
第2のモジュールは、モデルデプロイメント時のプライバシ保護に重点を置いている。
トレーニングデータの意図しない露出によるプライバシーリスクを防止するために,モデルメモリ検索,ハイリスクデータベース構築,セキュアデータベース構築,マッチ・アンド・リプレースを含むプライバシ保護ベクトルデータベース(PPVD)アプローチを提案する。
実験の結果,DPF-CMはモデルの精度を著しく向上し,訓練された中国の医療用LLMがオープンソース企業間で最先端の性能を達成できることが示唆された。
さらに、このフレームワークはデータのプライバシリークのトレーニングを27%削減する。
関連論文リスト
- Communication-Efficient Module-Wise Federated Learning for Grasp Pose Detection in Cluttered Environments [10.63791848873399]
本稿では,Graspのポーズ検出のためのモジュールワイド・フェデレート・ラーニング(FL)フレームワークを提案する。
FLはプライバシ保護ソリューションを提供するが、そのGPDへの応用は、大規模なモデルの通信オーバーヘッドによって妨げられている。
本研究は、分散化方式で、堅牢で一般化されたGPDモデルを訓練するための通信効率のよいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-08T10:40:49Z) - DMRL: Data- and Model-aware Reward Learning for Data Extraction [3.511535517476954]
大規模言語モデル(LLM)は本質的に意図しないプライバシー侵害に対して脆弱である。
本稿では,データ抽出のためのデータ・モデル・アウェア・リワード学習手法を提案する。
論文 参考訳(メタデータ) (2025-05-07T07:21:37Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Beyond Efficiency: Molecular Data Pruning for Enhanced Generalization [30.738229850748137]
MolPegは、一般化を強化するための分子データプルーニングフレームワークである。
これは、事前訓練されたモデルでデータプルーニングを適用する、ソースフリーなデータプルーニングシナリオに焦点を当てている。
4つのダウンストリームタスクで既存のDPメソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2024-09-02T09:06:04Z) - CoSense3D: an Agent-based Efficient Learning Framework for Collective Perception [0.552480439325792]
本稿では,よりクリーンなデータフロー構造を実現するために,ディープラーニングモジュールとエージェントデータを個別に扱うエージェントベースのトレーニングフレームワークを提案する。
このフレームワークは、データ処理パイプラインをプロトタイピングし、各エージェントの勾配計算を定義するAPIを提供するだけでなく、インタラクティブなトレーニング、テスト、データ視覚化のためのユーザインターフェースも提供する。
論文 参考訳(メタデータ) (2024-04-29T11:40:27Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning [117.48444197402858]
データフリーメタトレーニングにおけるePisode cUrriculum inversion(ECI)と、内部ループ後のinvErsion calibRation(ICFIL)を提案する。
ECIは、メタモデルのリアルタイムフィードバックに応じて、擬似エピソードの難易度を適応的に増加させる。
本稿では,ECIを用いたメタトレーニングの最適化過程を,エンド・ツー・エンド方式で近似形式として定式化する。
論文 参考訳(メタデータ) (2023-03-20T15:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。