論文の概要: Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora
- arxiv url: http://arxiv.org/abs/2604.24819v1
- Date: Mon, 27 Apr 2026 14:05:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.51889
- Title: Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora
- Title(参考訳): データを使ったプログラミング:Raw Corporaの自己改善LDMのためのテスト駆動データエンジニアリング
- Authors: Chenkai Pan, Xinglong Xu, Yuhang Xu, Yujun Wu, Siyuan Li, Jintao Chen, Conghui He, Jingxuan Wei, Cheng Tan,
- Abstract要約: 本研究では,ソースコーパスから抽出した構造化知識表現が,学習データと評価データの共有基盤となることを示す。
この研究は、人間の専門知識の言語モデルへの信頼性の高い工学の基礎を確立する。
- 参考スコア(独自算出の注目度): 33.535457603064906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliably transferring specialized human knowledge from text into large language models remains a fundamental challenge in artificial intelligence. Fine-tuning on domain corpora has enabled substantial capability gains, but the process operates without feedback: when a model fails on a domain task, there is no method to diagnose what is deficient in the training data, and the only recourse is to add more data indiscriminately. Here we show that when a structured knowledge representation extracted from the source corpus serves as the shared foundation for both training data and evaluation, the complete data-engineering lifecycle maps onto the software development lifecycle in a precise and operative way: training data becomes source code specifying what the model should learn, model training becomes compilation, benchmarking becomes unit testing, and failure-driven data repair becomes debugging. Under this correspondence, model failures decompose into concept-level gaps and reasoning-chain breaks that can be traced back to specific deficiencies in the data and repaired through targeted patches, with each repair cycle producing consistent improvements across model scales and architectures without degrading general capabilities. We formalize this principle as Programming with Data and instantiate it across sixteen disciplines spanning the natural sciences, engineering, biomedicine, and the social sciences, releasing a structured knowledge base, benchmark suite, and training corpus as open resources. By demonstrating that the relationship between training data and model behaviour is structurally traceable and systematically repairable, this work establishes a principled foundation for the reliable engineering of human expertise into language models.
- Abstract(参考訳): 人間の専門知識をテキストから大きな言語モデルに確実に移行することは、人工知能の根本的な課題である。
ドメインコーパスの微調整は、実質的な能力向上を可能にするが、プロセスはフィードバックなしで動作している: モデルがドメインタスクで失敗すると、トレーニングデータに欠陥があるものを診断する手段がなく、唯一の手段は、より多くのデータを無差別に追加することである。
ここでは、ソースコーパスから抽出された構造化知識表現が、トレーニングデータと評価の両方の共有基盤として機能すると、完全なデータエンジニアリングライフサイクルが、正確かつ協調的な方法でソフトウェア開発ライフサイクルにマップされる。
この対応のもと、モデル障害は概念レベルのギャップと推論チェーンの破れに分解され、データ内の特定の欠陥に遡り、ターゲットパッチを通じて修復される。
我々は、この原則をデータを使ったプログラミングとして定式化し、自然科学、工学、生医学、社会科学にまたがる16の分野をインスタンス化し、構造化知識ベース、ベンチマークスイート、コーパスをオープンリソースとしてリリースする。
トレーニングデータとモデル行動の関係が構造的にトレース可能であり、体系的に修復可能であることを実証することにより、この研究は、人間の専門知識の言語モデルへの信頼性の高い工学の基礎を確立する。
関連論文リスト
- Exploring a New Competency Modeling Process with Large Language Models [0.0]
本研究では,大規模言語モデル(LLM)に基づく新しい能力モデリングプロセスを提案する。
具体的には、LLMを利用して、生のテキストデータから行動的・心理的記述を抽出する。
学習可能なパラメータを導入し、異なる情報ソースを適応的に統合し、モデルが行動信号と心理信号の相対的重要性を決定できるようにする。
論文 参考訳(メタデータ) (2026-02-13T16:46:51Z) - A Theory of the Mechanics of Information: Generalization Through Measurement of Uncertainty (Learning is Measuring) [0.0]
本研究では,情報理論の不確実性(informationtheoretic uncertainty)を用いたモデルフリーフレームワークを導入し,生データからの推論を解析・実行した。
分散モデリングを排除し、バイアスを低減し、トレーニングデータの直接編集や削除を含む効率的な更新を可能にする。
トレーサビリティ、解釈可能性、データ駆動による意思決定を強調し、マシンラーニングのための統一された人間理解可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-26T19:45:25Z) - Predict Training Data Quality via Its Geometry in Metric Space [7.056460460498077]
本稿では,学習結果に重要な影響を与える訓練データにおける表現の豊かさと冗長性の排除を提案する。
これを調べるために,距離空間内のデータから位相的特徴を抽出するために,永続的ホモロジーを用いる。
この結果から,AIシステムを駆動するトレーニングデータを解析・拡張するための強力なツールとして,永続的ホモロジーが注目されている。
論文 参考訳(メタデータ) (2025-10-12T16:59:28Z) - Federated Graph Unlearning [23.00839112398916]
データプライバシの要求は、Federated Graph Learningのようなフレームワークの開発につながっている。
提案するフレームワークでは,特定の未学習要求に合わせた分岐戦略を採用している。
このフレームワークは、クライアントとメタアンラーニングの両方のシナリオで、モデルの予測精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-08-04T14:57:03Z) - On Reconstructing Training Data From Bayesian Posteriors and Trained Models [4.061135251278187]
トレーニングされたパラメータでモデルの仕様を公開することにより、相手はトレーニングデータに関する情報を再構築することが可能になる。
本稿では,問題を表現するための数学的枠組みを確立すること,最大平均差分同値によって脆弱なトレーニングデータの特徴を特徴づけること,ベイジアンモデルと非ベイジアンモデルの両方でデータを再構成するためのスコアマッチングフレームワークを概説すること,の3つの主要な貢献を行う。
論文 参考訳(メタデータ) (2025-07-24T12:49:41Z) - Re:Form -- Reducing Human Priors in Scalable Formal Software Verification with RL in LLMs: A Preliminary Study on Dafny [78.1575956773948]
強化学習(RL)で訓練された大規模言語モデル(LLM)は、信頼性も拡張性もない、という大きな課題に直面している。
有望だが、ほとんど報われていない代替手段は、フォーマルな言語ベースの推論である。
生成モデルが形式言語空間(例えばダフニー)で機能する厳密な形式体系におけるLLMの接地は、それらの推論プロセスと結果の自動的かつ数学的に証明可能な検証を可能にする。
論文 参考訳(メタデータ) (2025-07-22T08:13:01Z) - RESTOR: Knowledge Recovery in Machine Unlearning [71.75834077528305]
Webスケールコーパスでトレーニングされた大規模な言語モデルは、プライベートまたはセンシティブな情報を含むことができる。
このようなデータポイントの効果を排除するために、いくつかの機械学習アルゴリズムが提案されている。
機械学習評価のためのRESTORフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T20:54:35Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。