論文の概要: Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs
- arxiv url: http://arxiv.org/abs/2604.10480v1
- Date: Sun, 12 Apr 2026 06:24:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.043563
- Title: Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs
- Title(参考訳): Tracing the Roots: ポストトレーニングLDMにおけるデータラインの発見のためのマルチエージェントフレームワーク
- Authors: Yu Li, Xiaoran Shang, Qizhi Pei, Yun Zhu, Xin Gao, Honglin Lin, Zhanping Zhong, Zhuoshi Pan, Zheng Liu, Xiaoyang Wang, Conghui He, Dahua Lin, Feng Zhao, Lijun Wu,
- Abstract要約: 学習後のデータは、大規模言語モデル(LLM)の機能を形成する上で重要な役割を果たす
本稿では,データセット開発における進化グラフを再構築する自動マルチエージェントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 81.43302841109349
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training data plays a pivotal role in shaping the capabilities of Large Language Models (LLMs), yet datasets are often treated as isolated artifacts, overlooking the systemic connections that underlie their evolution. To disentangle these complex relationships, we introduce the concept of \textbf{data lineage} to the LLM ecosystem and propose an automated multi-agent framework to reconstruct the evolutionary graph of dataset development. Through large-scale lineage analysis, we characterize domain-specific structural patterns, such as vertical refinement in math-oriented datasets and horizontal aggregation in general-domain corpora. Moreover, we uncover pervasive systemic issues, including \textit{structural redundancy} induced by implicit dataset intersections and the \textit{propagation of benchmark contamination} along lineage paths. To demonstrate the practical value of lineage analysis for data construction, we leverage the reconstructed lineage graph to create a \textit{lineage-aware diversity-oriented dataset}. By anchoring instruction sampling at upstream root sources, this approach mitigates downstream homogenization and hidden redundancy, yielding a more diverse post-training corpus. We further highlight lineage-centric analysis as an efficient and robust topological alternative to sample-level dataset comparison for large-scale data ecosystems. By grounding data construction in explicit lineage structures, our work advances post-training data curation toward a more systematic and controllable paradigm.
- Abstract(参考訳): トレーニング後のデータは、LLM(Large Language Models)の機能を形成する上で重要な役割を果たすが、データセットはしばしば独立したアーティファクトとして扱われる。
これらの複雑な関係を解消するために、LLMエコシステムに「textbf{data lineage}」という概念を導入し、データセット開発における進化グラフを再構築するための自動マルチエージェントフレームワークを提案する。
大規模な系統解析を通じて、数学指向データセットにおける垂直補正や一般領域コーパスにおける水平アグリゲーションといった、ドメイン固有の構造パターンを特徴付ける。
さらに,暗黙のデータセット交叉によって引き起こされる \textit{structureural redundancy} や,系統パスに沿った \textit{propagation of benchmark contamination} など,広範囲にわたるシステム問題を明らかにする。
データ構築のための系統解析の実践的価値を示すために、再構成された系統グラフを活用して \textit{lineage-aware diversity-oriented dataset} を作成する。
上流のルートソースで命令サンプリングをアンカーすることで、下流の均質化と隠れた冗長性を緩和し、訓練後のコーパスをより多様にする。
さらに,大規模データエコシステムを対象としたサンプルレベルのデータセット比較に代わる,効率的でロバストなトポロジカルなトポロジ的分析手法として,系統中心の解析を強調した。
我々の研究は、データ構築を明示的な系統構造で基礎づけることによって、より体系的で制御可能なパラダイムに向けて、訓練後のデータキュレーションを進めます。
関連論文リスト
- Generative Data Transformation: From Mixed to Unified Data [57.84692191369066]
textscTaesarはtextbftarget-textbfal textbfregenerationのためのEmphdata中心のフレームワークである。
ドメイン間のコンテキストを対象のシーケンスにエンコードすることで、複雑な融合アーキテクチャを使わずに、標準的なモデルで複雑な依存関係を学習することができる。
論文 参考訳(メタデータ) (2026-02-26T08:30:09Z) - From Parameters to Performance: A Data-Driven Study on LLM Structure and Development [73.67759647072519]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めている。
モデルスケールと能力の急激な成長にもかかわらず、構造構成がパフォーマンスに与える影響に関する体系的なデータ駆動の研究は依然として少ない。
多様なオープンソースLLM構造を含む大規模データセットと,その性能を複数のベンチマークで比較した。
論文 参考訳(メタデータ) (2025-09-14T12:20:39Z) - TaP: A Taxonomy-Guided Framework for Automated and Scalable Preference Data Generation [50.319535974012]
大規模言語モデル(LLM)の教師付き微調整と選好微調整を行うには、高品質なデータセットが必要である。
教師付きおよび好みの微調整のためのほとんどのデータセットは英語で提供されている。
本稿では、アンダーラインtextbfTaxonomy-Guided underlinetextbfPreference Data Generationフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-30T15:45:28Z) - Relational Deep Learning: Challenges, Foundations and Next-Generation Architectures [50.46688111973999]
グラフ機械学習は、任意のグラフ構造化データで学習するモデルの能力を大幅に向上させた。
従来の工学的特徴を伴わない'関係エンティティグラフ'のエンドツーエンド表現を可能にする新しい青写真を提案する。
本稿では、大規模マルチテーブル統合や、時間力学と異種データのモデリングの複雑さなど、重要な課題について論じる。
論文 参考訳(メタデータ) (2025-06-19T23:51:38Z) - Space of Data through the Lens of Multilevel Graph [0.0]
この研究は、新しいデータ構造を導入することで、データ空間の本質的な複雑さに取り組むことを目指している。
本稿では,そのトポロジの縮小と拡張という,2つの基本的な操作を備えたマルチレベルグラフの概念を提案する。
我々は、このグラフ構造を操作するための包括的な方法スイートを提供し、データ分析のための堅牢なフレームワークを確立します。
論文 参考訳(メタデータ) (2025-03-30T21:54:07Z) - Topology-aware Reinforcement Feature Space Reconstruction for Graph Data [22.5530178427691]
優れた機能領域の再構築は、データのAI能力の向上、モデルの一般化の改善、下流MLモデルの可用性の向上に不可欠である。
我々は、トポロジ対応強化学習を用いて、グラフデータの特徴空間再構成を自動化し、最適化する。
提案手法では,コア部分グラフ抽出とグラフニューラルネットワーク(GNN)の併用により,トポロジ的特徴を符号化し,計算複雑性を低減する。
論文 参考訳(メタデータ) (2024-11-08T18:01:05Z) - Entropic Optimal Transport Eigenmaps for Nonlinear Alignment and Joint Embedding of High-Dimensional Datasets [11.105392318582677]
本稿では,理論的保証付きデータセットの整列と共同埋め込みの原理的アプローチを提案する。
提案手法は,2つのデータセット間のEOT計画行列の先頭特異ベクトルを利用して,それらの共通基盤構造を抽出する。
EOT計画では,高次元状態において,潜伏変数の位置で評価されたカーネル関数を近似することにより,共有多様体構造を復元する。
論文 参考訳(メタデータ) (2024-07-01T18:48:55Z) - On Linearizing Structured Data in Encoder-Decoder Language Models: Insights from Text-to-SQL [8.57550491437633]
本研究では,エンコーダ-デコーダ言語モデル,特にT5における構造化データの線形処理について検討する。
この結果から,スキーマリンクや構文予測など,人間設計プロセスの模倣が可能であることが判明した。
また、構造ノードエンコーディングのエゴ中心の性質を含む、モデルの内部メカニズムに関する洞察を明らかにした。
論文 参考訳(メタデータ) (2024-04-03T01:16:20Z) - AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning [98.26836657967162]
textbfAgentOhanaは、さまざまなシナリオにまたがって、異なる環境からエージェントのトラジェクトリを集約する。
AIエージェント用に調整された大規模なアクションモデルである textbfxLAM-v0.1 は、さまざまなベンチマークで例外的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-23T18:56:26Z) - Joint Geometric and Topological Analysis of Hierarchical Datasets [7.098759778181621]
本稿では,複数の階層的データセットに整理された高次元データに注目する。
この研究の主な新規性は、トポロジカルデータ分析と幾何多様体学習という、2つの強力なデータ分析アプローチの組み合わせにある。
本手法は, 最新手法と比較して優れた分類結果をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-03T13:02:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。