論文の概要: LLMSurgeon: Diagnosing Data Mixture of Large Language Models
- arxiv url: http://arxiv.org/abs/2605.30348v1
- Date: Thu, 28 May 2026 17:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.761128
- Title: LLMSurgeon: Diagnosing Data Mixture of Large Language Models
- Title(参考訳): LLMSurgeon: 大規模言語モデルのデータの混合を診断する
- Authors: Yaxin Luo, Jiacheng Cui, Xiaohan Zhao, Xinyi Shang, Jiacheng Liu, Xinyue Bi, Zhaoyi Li, Zhiqiang Shen,
- Abstract要約: 大規模言語モデル(LLM)の事前学習は「デジタルDNA」を構成する
$textbfLLMSurgeon$はDMSをラベルシフトの仮定の下で逆問題とみなす強力なフレームワークである。
$textbfLLMScan$.textbfLLMScan$.textbfLLMScan$.textbfLLMScan$.textbfLLMScan$.textbfLLMScan$は、透明な事前学習混合物を備えたオープンソースのLCMから構築されたレシピを検証可能な評価スイートである。
- 参考スコア(独自算出の注目度): 40.51334870716311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pretraining data mixture of Large Language Models (LLMs) constitutes their "digital DNA", shaping model behaviors, capabilities, and failure modes. Yet this composition is rarely disclosed, making post-hoc auditing of data combination or provenance difficult. In this work, we formalize $\textbf{Data Mixture Surgery (DMS)}$: given only generated text from a target LLM, estimate the domain-level distribution of its pretraining corpus under a predefined taxonomy. We propose $\textbf{LLMSurgeon}$, a strong framework that casts DMS as an inverse problem under the label-shift assumption. Rather than directly aggregating classifier outputs, LLMSurgeon estimates a calibrated $\textit{soft}$ confusion matrix and solves a constrained inverse problem to correct systematic domain confusion and recover the latent mixture prior. To evaluate, we introduce $\textbf{LLMScan}$, a recipe-verifiable evaluation suite built from open-source LLMs with transparent pretraining mixtures. Across LLMScan, LLMSurgeon recovers domain mixtures with high fidelity under fixed protocols. Our work presents a practical, post-hoc approach for auditing the digital DNA of foundation models without access to their training data.
- Abstract(参考訳): LLM(Large Language Models)の事前学習データ混合物は、その"デジタルDNA"を構成し、モデルの振る舞い、能力、障害モードを形作る。
しかし、この構成が開示されることは滅多になく、データの組み合わせや証明のポストホック監査が困難になる。
本研究は, 対象 LLM から生成したテキストのみを与えられた $\textbf{Data Mixture Surgery (DMS)$ を定式化し, 事前学習コーパスの領域レベルの分布を予め定義された分類法で推定する。
ラベルシフト仮定の下でDMSを逆問題とみなす強力なフレームワークである$\textbf{LLMSurgeon}$を提案する。
LLMSurgeonは、分類器の出力を直接集約するのではなく、キャリブレーションされた$\textit{soft}$混乱行列を推定し、制約された逆問題を解き、体系的なドメインの混乱を補正し、前の潜伏混合を回復する。
評価のために,オープンソースのLCMと透明な事前学習混合物を併用したレシピ検証評価スイートである$\textbf{LLMScan}$を紹介した。
LLMScan全体では、LLMSurgeonは固定プロトコルの下で高い忠実度を持つドメイン混合物を回収する。
本研究は,基礎モデルのデジタルDNAをトレーニングデータにアクセスせずに監査するための,実践的でポストホックなアプローチを提案する。
関連論文リスト
- From Residuals to Reasons: LLM-Guided Mechanism Inference from Tabular Data [10.795877029195845]
科学的応用のための機械学習における永続的な課題は、予測と理解を共同で達成することである。
マルチエージェント残差文脈学習(MARICL)を導入する。
MARICLは、すべてのデータセットのベースモデルに対して一貫して改善されている。
論文 参考訳(メタデータ) (2026-05-21T15:34:08Z) - Beyond Manual Curation: Augmenting Targeted Protein Degradation Databases via Agentic Literature Extraction Workflows [4.363171757159274]
バイオメディシンの予測モデルは、一次出版物のテキスト、表、サプリメントにロックされた構造化されたアッセイデータに依存する。
このボトルネックは、特にターゲットタンパク質分解(TPD)において、各アッセイレコードは、複合アイデンティティ、分解ターゲット、リクルーザー、アッセイコンテキスト、セクション、テーブル、補足ファイル間で報告されるエンドポイント値を組み合わせる必要がある。
ドメイン固有のキュレーションタスクとしてPDデータベース抽出を定式化し、ループ内LPMワークフローを提案する。
我々は、TPDデータキュレーションとAI支援科学キュレーションのためのリソースとして、ワークフロー、プロンプト、評価コード、抽出データセットをより広範囲にリリースする。
論文 参考訳(メタデータ) (2026-05-11T20:33:04Z) - A Dataset for Distilling Knowledge Priors from Literature for Therapeutic Design [16.22074029228085]
実験室で使用される化合物を記述した文献から抽出した設計問題のデータセットであるMedexを紹介した。
Medexは3230万対の自然言語事実と適切な実体表現で構成されている。
論文 参考訳(メタデータ) (2025-08-14T17:59:37Z) - Blackbox Dataset Inference for LLM [27.02176845242058]
大規模言語モデルのトレーニングには、個人識別可能な情報と著作権のある資料が含まれる。
本稿では、被疑者モデルがトレーニングに$mathcalD$という犠牲データセットを使用したかどうかを検知することを目的としたテキストデータセット推論について検討する。
論文 参考訳(メタデータ) (2025-07-04T14:45:41Z) - Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。
LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文 参考訳(メタデータ) (2025-06-06T13:02:59Z) - Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [50.9692060692705]
本稿では、オフラインRL用の決定変換器をベースとした一般的なフレームワークである、$textbfMo$tion Control(textbfLaMo$)のための$textbfLanguage Modelsを紹介する。
私たちのフレームワークは4つの重要なコンポーネントを強調しています。
逐次事前学習したLMを用いた決定変換器の初期化(2)LoRA微細調整法を用いて
特に,本手法は,限られたデータサンプルを持つシナリオにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。