論文の概要: ANML: Attribution-Native Machine Learning with Guaranteed Robustness
- arxiv url: http://arxiv.org/abs/2602.11690v1
- Date: Thu, 12 Feb 2026 08:12:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.712407
- Title: ANML: Attribution-Native Machine Learning with Guaranteed Robustness
- Title(参考訳): ANML:ロバストさを保証した属性依存型機械学習
- Authors: Oliver Zahn, Matt Beton, Simran Chana,
- Abstract要約: トレーニングサンプルを4つの品質要因で重み付けするフレームワークであるANMLを紹介します。
ANMLは勾配のみのベースラインよりも33~72%のエラー低減を実現している。
コントリビュータレベルの属性は、サンプルレベルのメソッドよりも1.3-5.3倍向上する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Frontier AI systems increasingly train on specialized expert data, from clinical records to proprietary research to curated datasets, yet current training pipelines treat all samples identically. A Nobel laureate's contribution receives the same weight as an unverified submission. We introduce ANML (Attribution-Native Machine Learning), a framework that weights training samples by four quality factors: gradient-based consistency (q), verification status (v), contributor reputation (r), and temporal relevance (T). By combining what the model observes (gradient signals) with what the system knows about data provenance (external signals), ANML produces per-contributor quality weights that simultaneously improve model performance and enable downstream attribution. Across 5 datasets (178-32,561 samples), ANML achieves 33-72% error reduction over gradient-only baselines. Quality-weighted training is data-efficient: 20% high-quality data outperforms 100% uniformly weighted data by 47%. A Two-Stage Adaptive gating mechanism guarantees that ANML never underperforms the best available baseline, including under strategic joint attacks combining credential faking with gradient alignment. When per-sample detection fails against subtle corruption, contributor-level attribution provides 1.3-5.3x greater improvement than sample-level methods, with the advantage growing as corruption becomes harder to detect.
- Abstract(参考訳): フロンティアAIシステムは、臨床記録からプロプライエタリな研究、キュレートされたデータセットに至るまで、専門的な専門家データをトレーニングする一方で、現在のトレーニングパイプラインでは、すべてのサンプルを同一に扱うようになっている。
ノーベル賞受賞者の貢献は、未証明の提出と同じ重さである。
ANML(Attribution-Native Machine Learning)は、トレーニングサンプルを4つの品質要因によって重み付けするフレームワークである。
(q),検証状況(v),コントリビュータの評判(r),時間的関連(T)。
モデルが観測するもの(段階的な信号)と、システムがデータプロファイナンス(外部信号)について知っているもの(外部信号)を組み合わせることで、ANMLは、モデルの性能を同時に改善し、下流への帰属を可能にする、コントリビュータごとの品質重みを生成する。
ANMLは5つのデータセット(178~32,561のサンプル)にわたって、勾配のみのベースラインよりも33~72%のエラー削減を実現している。
20%の高品質データは、均一に重み付けされたデータよりも47%優れています。
Two-Stage Adaptive Gating(英語版)機構により、ANMLはクレデンシャルフェイキングと勾配アライメントを組み合わせた戦略的共同攻撃を含む、最高のベースラインを過小評価しないことが保証される。
サンプルごとの検出が微妙な腐敗に対して失敗すると、コントリビュータレベルの属性はサンプルレベルのメソッドよりも1.3-5.3倍向上し、破損を検出するのが難しくなると、利点は増大する。
関連論文リスト
- Self-Training the Neurochaos Learning Algorithm [0.0]
本研究では,この制約を克服するために,ニューロカオス学習(NL)としきい値に基づく自己学習(ST)手法を統合したハイブリッド半教師付き学習アーキテクチャを提案する。
提案した自己学習型ニューロカオス学習(NL+ST)アーキテクチャは,スタンドアロンSTモデルと比較して一貫して優れた性能向上を実現している。
論文 参考訳(メタデータ) (2026-01-03T10:24:01Z) - TraPO: A Semi-Supervised Reinforcement Learning Framework for Boosting LLM Reasoning [33.47825979936341]
検証可能な報酬(RLVR)を用いた強化学習は、大きな推論モデル(LRM)の訓練に有効であることが証明された。
提案アルゴリズムは,学習軌跡とラベル付き標本との類似性を一致させることで,信頼できない標本を同定する。
1Kのラベル付きサンプルと3Kのラベルなしサンプルだけで、TraPOの平均精度は42.6%に達し、45Kのラベルなしサンプル(38.3%)で訓練された最高の教師なしメソッドを上回った。
論文 参考訳(メタデータ) (2025-12-15T09:03:45Z) - Uncertainty-aware Long-tailed Weights Model the Utility of Pseudo-labels for Semi-supervised Learning [50.868594148443215]
本研究では,不確かさを意識したアンサンブル構造(UES)を提案する。
UESは軽量でアーキテクチャに依存しないため、分類や回帰を含む様々なコンピュータビジョンタスクに容易に拡張できる。
論文 参考訳(メタデータ) (2025-03-13T02:21:04Z) - R+R: Security Vulnerability Dataset Quality Is Critical [0.6906005491572401]
多くの研究では、高い複製率、疑わしいラベルの精度、不完全なサンプルに悩まされているデータセットを使用している。
その結果, 試料の56%が不正なラベルであり, 44%が不完全であり, 31%のみが正確で完全であった。
我々は,大規模な重複バグフィックスコーパスを用いた転送学習を用いて,高品質な事前学習データが大きいと,これらのモデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2025-03-09T01:49:30Z) - Which Augmentation Should I Use? An Empirical Investigation of Augmentations for Self-Supervised Phonocardiogram Representation Learning [5.438725298163702]
自己監視型学習(SSL) 対照的な学習は、データの不足を軽減できる可能性を示している。
本研究の目的は,PCG分類におけるSSLモデルの性能向上を目的とした,幅広いオーディオベースの拡張と組み合わせの探索と評価である。
論文 参考訳(メタデータ) (2023-12-01T11:06:00Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Hierarchical Semi-Supervised Contrastive Learning for
Contamination-Resistant Anomaly Detection [81.07346419422605]
異常検出は、通常のデータ分布から逸脱したサンプルを特定することを目的としている。
コントラスト学習は、異常の効果的な識別を可能にする表現のサンプル化に成功している。
汚染耐性異常検出のための新しい階層型半教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-24T18:49:26Z) - Boosting Facial Expression Recognition by A Semi-Supervised Progressive
Teacher [54.50747989860957]
本稿では,信頼度の高いFERデータセットと大規模未ラベル表現画像を有効訓練に用いるための半教師付き学習アルゴリズム,Progressive Teacher (PT)を提案する。
RAF-DB と FERPlus を用いた実験により,RAF-DB で89.57% の精度で最先端の性能を実現する手法の有効性が検証された。
論文 参考訳(メタデータ) (2022-05-28T07:47:53Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Dynamically Mitigating Data Discrepancy with Balanced Focal Loss for
Replay Attack Detection [10.851348154870852]
我々は、アンチ・スプーフィングにおいては、モデリングプロセスにおいて容易に分類されたサンプルよりも識別不能なサンプルに注意が必要であると論じている。
本研究は, サンプル自体の特性に基づいて, 損失を動的にスケールする訓練目的として, バランスの取れた焦点損失関数を活用することを提案する。
相補的な特徴により、3種類の機能しか持たない融合系は他のシステムよりも22.5%、min-tDCFが7%、EERが7%向上する。
論文 参考訳(メタデータ) (2020-06-25T17:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。