論文の概要: Fine-Grained Traceability for Transparent ML Pipelines
- arxiv url: http://arxiv.org/abs/2601.14971v1
- Date: Wed, 21 Jan 2026 13:21:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.374438
- Title: Fine-Grained Traceability for Transparent ML Pipelines
- Title(参考訳): 透明MLパイプラインの微粒化トレーサビリティ
- Authors: Liping Chen, Mujie Liu, Haytham Fayek,
- Abstract要約: FG-Tracは、機械学習パイプライン全体にわたって詳細なサンプルレベルのトレーサビリティを確立する、モデルに依存しないフレームワークである。
これは、前処理とトレーニングにわたるサンプルライフサイクルイベントをキャプチャし、検証するための明示的なメカニズムを定義する。
トレーニングチェックポイントに明示的に基づいたコントリビューションスコアを計算し、これらのトレースを暗黙の暗号コミットに固定する。
- 参考スコア(独自算出の注目度): 10.182692014427909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern machine learning systems are increasingly realised as multistage pipelines, yet existing transparency mechanisms typically operate at a model level: they describe what a system is and why it behaves as it does, but not how individual data samples are operationally recorded, tracked, and verified as they traverse the pipeline. This absence of verifiable, sample-level traceability leaves practitioners and users unable to determine whether a specific sample was used, when it was processed, or whether the corresponding records remain intact over time. We introduce FG-Trac, a model-agnostic framework that establishes verifiable, fine-grained sample-level traceability throughout machine learning pipelines. FG-Trac defines an explicit mechanism for capturing and verifying sample lifecycle events across preprocessing and training, computes contribution scores explicitly grounded in training checkpoints, and anchors these traces to tamper-evident cryptographic commitments. The framework integrates without modifying model architectures or training objectives, reconstructing complete and auditable data-usage histories with practical computational overhead. Experiments on a canonical convolutional neural network and a multimodal graph learning pipeline demonstrate that FG-Trac preserves predictive performance while enabling machine learning systems to furnish verifiable evidence of how individual samples were used and propagated during model execution.
- Abstract(参考訳): 現代の機械学習システムは、ますますマルチステージパイプラインとして実現されているが、既存の透明性メカニズムは、一般的にモデルレベルで運用されている。
この検証可能な、サンプルレベルのトレーサビリティの欠如は、特定のサンプルが使用されたか、いつ処理されたか、あるいは対応するレコードが時間とともに無傷であるかどうかを、実践者やユーザが判断できないままである。
モデルに依存しないフレームワークであるFG-Tracを導入し、機械学習パイプライン全体を通して検証可能な、きめ細かいサンプルレベルのトレーサビリティを確立する。
FG-Tracは、前処理とトレーニングにまたがってサンプルライフサイクルイベントをキャプチャし、検証するための明確なメカニズムを定義し、トレーニングチェックポイントに明示的に根ざしたコントリビューションスコアを計算し、これらのトレースを暗黙の暗号化コミットメントに固定する。
このフレームワークは、モデルアーキテクチャを変更したり、目標をトレーニングすることなく統合され、実際の計算オーバーヘッドで、完全で監査可能なデータ利用履歴を再構築する。
標準畳み込みニューラルネットワークとマルチモーダルグラフ学習パイプラインの実験は、FG-Tracが予測性能を保ちながら、機械学習システムがモデル実行中に個々のサンプルがどのように使われ、伝播されたか検証可能な証拠を提供することを示した。
関連論文リスト
- Refinement Provenance Inference: Detecting LLM-Refined Training Prompts from Model Behavior [58.751981587234916]
本稿では,Refinement Provenance Inference (RPI)監査タスクをRefinement Provenance Inference (RPI)として定式化する。
本稿では,ロジットレベルの信号で教師が強制する可能性機能を融合させるロジットベースのフレームワークであるReProを提案する。
トレーニング中、ReProはシャドウファインチューニングを通じて転送可能な表現を学び、訓練データアクセスなしで、見えない犠牲者の証明を推測するために軽量のリニアヘッドを使用する。
論文 参考訳(メタデータ) (2026-01-05T10:16:41Z) - Toward Real-world Text Image Forgery Localization: Structured and Interpretable Data Synthesis [40.047195497231584]
タンパリング合成(英: Tampering Synthesis、FSTS)は、タンパリングされたテキストイメージを合成するための構造化および解釈可能なフレームワークである。
FSTSは5つの代表的なタンパリングタイプから16,750の現実世界のタンパリングインスタンスを収集する。
FSTSは、現実世界の偽の痕跡をよりよく反映する、多種多様な現実的なトレーニングデータを合成する。
論文 参考訳(メタデータ) (2025-11-16T15:43:18Z) - Interpretable Early Failure Detection via Machine Learning and Trace Checking-based Monitoring [9.565145785280452]
ベクトル化トレースチェックに基づく早期故障検出のためのフレームワークを開発する。
このフレームワークは、最先端の手法と比較して、主要なパフォーマンス指標を2-10%改善している。
論文 参考訳(メタデータ) (2025-08-25T08:30:01Z) - Large Language Models as Realistic Microservice Trace Generators [48.730974361862366]
本稿では,大規模言語モデル (LLM) を用いて, 合成作業負荷トレースを生成する手法を提案する。
我々はTraceLLMが様々な条件下で多様なリアルなトレースを生成し、精度と妥当性の両方において既存のアプローチよりも優れていることを示す。
TraceLLMは、キートレース機能を予測したり、欠落したデータを埋め込むといった、下流のトレース関連タスクに適応する。
論文 参考訳(メタデータ) (2024-12-16T12:48:04Z) - COMPILED: Deep Metric Learning for Defect Classification of Threaded Pipe Connections using Multichannel Partially Observed Functional Data [6.688305507010403]
本稿では,各サンプルが部分的に観察された多チャンネル関数データとして表現される欠陥分類に着目した。
各欠陥タイプのサンプルは限定的かつ不均衡である。
本稿では,Deep Metrics Learningに基づくCompactLEDと呼ばれる革新的な分類手法を提案する。
論文 参考訳(メタデータ) (2024-04-04T09:55:11Z) - Diffusion Generative Flow Samplers: Improving learning signals through
partial trajectory optimization [87.21285093582446]
Diffusion Generative Flow Samplers (DGFS) はサンプルベースのフレームワークであり、学習プロセスを短い部分的軌道セグメントに分解することができる。
生成フローネットワーク(GFlowNets)のための理論から着想を得た。
論文 参考訳(メタデータ) (2023-10-04T09:39:05Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Scanflow: A multi-graph framework for Machine Learning workflow
management, supervision, and debugging [0.0]
本稿では,エンドツーエンドの機械学習ワークフロー管理を支援するコンテナ化指向グラフフレームワークを提案する。
このフレームワークは、コンテナ内でMLを定義してデプロイし、メタデータを追跡し、本番環境での振る舞いを確認し、学習された知識と人為的な知識を使用してモデルを改善する。
論文 参考訳(メタデータ) (2021-11-04T17:01:12Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z) - Deep Multi-Shot Network for modelling Appearance Similarity in
Multi-Person Tracking applications [0.0]
本稿では、人の観察における外観類似度(MS-DoAS)の測定のためのディープマルチショットニューラルモデルを提案する。
モデルは故意に訓練され、以前のアイデンティティスイッチの存在を管理し、処理されたトラックでの観察を見逃すことができる。
これは、新しい観測が特定の軌道に対応するときの識別能力の高さを示し、ハードテストで97%の分類精度を達成している。
論文 参考訳(メタデータ) (2020-04-07T16:43:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。