Fugu-MT 論文翻訳(概要): Data Valuation Without Training of a Model

論文の概要: Data Valuation Without Training of a Model

arxiv url: http://arxiv.org/abs/2301.00930v1
Date: Tue, 3 Jan 2023 02:19:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-04 14:47:18.102175
Title: Data Valuation Without Training of a Model
Title（参考訳）: モデルの訓練を伴わないデータ評価
Authors: Nohyun Ki, Hoyong Choi and Hye Won Chung
Abstract要約: 本稿では、ニューラルネットワークの一般化における個々のインスタンスの影響を定量化するために、複雑性ギャップスコアと呼ばれるトレーニング不要なデータ評価スコアを提案する。提案したスコアは、インスタンスの不規則性を定量化し、トレーニング中に各データインスタンスがネットワークパラメータの総移動にどの程度貢献するかを測定する。
参考スコア（独自算出の注目度）: 8.89493507314525
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many recent works on understanding deep learning try to quantify how much individual data instances influence the optimization and generalization of a model, either by analyzing the behavior of the model during training or by measuring the performance gap of the model when the instance is removed from the dataset. Such approaches reveal characteristics and importance of individual instances, which may provide useful information in diagnosing and improving deep learning. However, most of the existing works on data valuation require actual training of a model, which often demands high-computational cost. In this paper, we provide a training-free data valuation score, called complexity-gap score, which is a data-centric score to quantify the influence of individual instances in generalization of two-layer overparameterized neural networks. The proposed score can quantify irregularity of the instances and measure how much each data instance contributes in the total movement of the network parameters during training. We theoretically analyze and empirically demonstrate the effectiveness of the complexity-gap score in finding 'irregular or mislabeled' data instances, and also provide applications of the score in analyzing datasets and diagnosing training dynamics.
Abstract（参考訳）: ディープラーニングを理解するための最近の多くの研究は、トレーニング中のモデルの振る舞いを分析したり、インスタンスがデータセットから削除されたときにモデルのパフォーマンスギャップを測定することによって、個々のデータインスタンスがモデルの最適化と一般化にどの程度影響するかを定量化しようとしている。このようなアプローチは個々のインスタンスの特徴と重要性を明らかにし、深層学習の診断や改善に有用な情報を提供する。しかし、データアセスメントに関する既存の作業の多くは、しばしば高計算コストを必要とするモデルの実際のトレーニングを必要とします。本稿では,2層超パラメータニューラルネットワークの一般化における個々のインスタンスの影響を定量化するためのデータ中心スコアである,複雑性ガップスコアと呼ばれるトレーニングフリーデータ評価スコアを提案する。提案したスコアは、インスタンスの不規則性を定量化し、トレーニング中に各データインスタンスがネットワークパラメータの総移動にどの程度貢献するかを測定する。我々は,「不規則」なデータインスタンスの発見における複雑性ギャップスコアの有効性を理論的に分析し,実証的に示すとともに,データセットの分析やトレーニングダイナミクスの診断におけるスコアの適用も提供する。

関連論文リスト

Biased Generalization in Diffusion Models [4.602851365305176]
生成モデリングの一般化は、有限データセットから基礎となる分布を学習し、新しいサンプルを生成する能力として定義される。実際には、テスト損失の最小限でトレーニングが停止されることがしばしばあり、一般化の運用上の指標として捉えられる。トレーニングデータに不規則に近接するサンプルを選好しながら、モデルがテスト損失を減らし続け、トレーニング中のバイアス付き一般化のフェーズを特定することで、この視点に挑戦する。
論文参考訳（メタデータ） (2026-03-03T19:25:33Z)
Z0-Inf: Zeroth Order Approximation for Data Influence [47.682602051124235]
トレーニングデータの影響を推定するための高効率ゼロ階近似を導入する。提案手法は, 微調整された大規模言語モデルに対して, 自己影響を推定し, 列車試験の影響を推定する上で, 自己影響を推定する上で優れた精度を実現する。
論文参考訳（メタデータ） (2025-10-13T18:30:37Z)
Z-Error Loss for Training Neural Networks [0.0]
異常勾配を伝播することで、モデル性能と一般化を低下させることができる。本稿では,Z-Error Lossを提案する。Z-Error Lossは,各バッチにおけるアウト・オブ・ディストリビューション(out-of-distribution)として認識されるデータポイントの寄与を隠蔽することにより,トレーニング中のアウトラヤの影響を最小限に抑える,統計的に原理化されたアプローチである。
論文参考訳（メタデータ） (2025-06-02T18:35:30Z)
Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-12-12T18:28:55Z)
Early-Stage Anomaly Detection: A Study of Model Performance on Complete vs. Partial Flows [0.0]
本研究では,異常検出システムにおける機械学習モデル,特にランダムフォレストの有効性について検討した。実世界のリアルタイムネットワーク環境に典型的な不完全なデータにモデルを適用する際に生じる性能格差について検討する。
論文参考訳（メタデータ） (2024-07-03T07:14:25Z)
Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文参考訳（メタデータ） (2024-04-22T09:16:14Z)
The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes [30.30769701138665]
我々は、訓練データとテストデータの間の相互影響を浮き彫りにして、ミラーレッド影響仮説を導入し、探求する。具体的には、テスト予測に対するトレーニングデータの影響を評価することは、等価だが逆問題として再定義することができることを示唆している。トレーニングポイント毎に前方パスとペアを組むことで,特定のテストサンプルの勾配を計算し,トレーニングデータの影響を推定する新しい手法を提案する。
論文参考訳（メタデータ） (2024-02-14T03:43:05Z)
Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution [62.71425232332837]
雑音ラベル付きモデルを用いたトレーニングは安価で驚くほど効果的であることを示す。このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文参考訳（メタデータ） (2024-01-29T03:42:37Z)
Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文参考訳（メタデータ） (2023-06-03T20:12:27Z)
CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文参考訳（メタデータ） (2022-05-30T13:34:46Z)
Zero-shot meta-learning for small-scale data from human subjects [10.320654885121346]
我々は,サンプル外テストデータに対する限られたトレーニングデータを用いて,新しい予測タスクに迅速に適応するフレームワークを開発した。本モデルでは, 介入による遅延処理効果を学習し, 設計上はマルチタスク予測を自然に処理できる。我々のモデルは、より広い人口への小型人間研究の一般化を向上するために重要である。
論文参考訳（メタデータ） (2022-03-29T17:42:04Z)
Equivariance Allows Handling Multiple Nuisance Variables When Analyzing Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文参考訳（メタデータ） (2022-03-29T04:54:06Z)
Selecting the suitable resampling strategy for imbalanced data classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文参考訳（メタデータ） (2021-12-15T18:56:39Z)
More data or more parameters? Investigating the effect of data structure on generalization [17.249712222764085]
データの特性は、トレーニング例の数とトレーニングパラメータの数の関数としてテストエラーに影響を与えます。ラベル内のノイズや入力データの強い異方性がテストエラーと同じような役割を担っていることを示す。
論文参考訳（メタデータ） (2021-03-09T16:08:41Z)
Learning from Incomplete Features by Simultaneous Training of Neural Networks and Sparse Coding [24.3769047873156]
本稿では,不完全な特徴を持つデータセット上で分類器を訓練する問題に対処する。私たちは、各データインスタンスで異なる機能のサブセット(ランダムまたは構造化)が利用できると仮定します。新しい教師付き学習法が開発され、サンプルあたりの機能のサブセットのみを使用して、一般的な分類器を訓練する。
論文参考訳（メタデータ） (2020-11-28T02:20:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。