論文の概要: Evaluating Data Influence in Meta Learning
- arxiv url: http://arxiv.org/abs/2501.15963v1
- Date: Mon, 27 Jan 2025 11:14:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 14:00:01.516502
- Title: Evaluating Data Influence in Meta Learning
- Title(参考訳): メタ学習におけるデータ影響の評価
- Authors: Chenyang Ren, Huanyi Xie, Shu Yang, Meng Ding, Lijie Hu, Di Wang,
- Abstract要約: 本稿では,2段階最適化フレームワークにおけるメタラーニングのための一般的なデータ属性評価フレームワークを提案する。
このフレームワークは、内部トレーニングプロセスと外部トレーニングプロセスの両方にわたるデータコントリビューションを包括的にモデル化する。
- 参考スコア(独自算出の注目度): 6.757424294625179
- License:
- Abstract: As one of the most fundamental models, meta learning aims to effectively address few-shot learning challenges. However, it still faces significant issues related to the training data, such as training inefficiencies due to numerous low-contribution tasks in large datasets and substantial noise from incorrect labels. Thus, training data attribution methods are needed for meta learning. However, the dual-layer structure of mata learning complicates the modeling of training data contributions because of the interdependent influence between meta-parameters and task-specific parameters, making existing data influence evaluation tools inapplicable or inaccurate. To address these challenges, based on the influence function, we propose a general data attribution evaluation framework for meta-learning within the bilevel optimization framework. Our approach introduces task influence functions (task-IF) and instance influence functions (instance-IF) to accurately assess the impact of specific tasks and individual data points in closed forms. This framework comprehensively models data contributions across both the inner and outer training processes, capturing the direct effects of data points on meta-parameters as well as their indirect influence through task-specific parameters. We also provide several strategies to enhance computational efficiency and scalability. Experimental results demonstrate the framework's effectiveness in training data evaluation via several downstream tasks.
- Abstract(参考訳): 最も基本的なモデルの1つとして、メタ学習は、数発の学習課題に効果的に対処することを目的としている。
しかし、大規模なデータセットでの低コントリビューションタスクの多さや、不正なラベルからのかなりのノイズによるトレーニングの非効率性など、トレーニングデータに関連する重大な問題に直面している。
したがって、メタ学習にはデータ属性の学習方法が必要である。
しかし、メタパラメータとタスク固有のパラメータ間の相互依存的な影響のため、マタラーニングの二重層構造は、トレーニングデータコントリビューションのモデル化を複雑にし、既存のデータ影響評価ツールを適用不可能または不正確なものにしている。
これらの課題に対処するため、その影響関数に基づいて、二段階最適化フレームワーク内のメタラーニングのための一般的なデータ属性評価フレームワークを提案する。
本稿では,タスク影響関数(タスク-IF)とインスタンス影響関数(インスタンス-IF)を導入し,特定のタスクや個々のデータポイントがクローズドフォームに与える影響を正確に評価する。
このフレームワークは、内部トレーニングプロセスと外部トレーニングプロセスの両方でデータコントリビューションを包括的にモデル化し、メタパラメータに対するデータポイントの直接的な影響と、タスク固有のパラメータによる間接的影響をキャプチャする。
また、計算効率とスケーラビリティを向上させるためのいくつかの戦略も提供します。
実験の結果,複数の下流タスクによるデータ評価のトレーニングにおけるフレームワークの有効性が示された。
関連論文リスト
- Efficient Multi-Agent System Training with Data Influence-Oriented Tree Search [59.75749613951193]
木探索とデータ選択の両方をガイドするデータインフルエンス指向木探索(DITS)を提案する。
インフルエンススコアを活用することで、システム改善のための最も影響力のあるデータを効果的に特定する。
非微分不可能な指標に適した影響スコア推定法を導出する。
論文 参考訳(メタデータ) (2025-02-02T23:20:16Z) - Exploring Transfer Learning for Deep Learning Polyp Detection in Colonoscopy Images Using YOLOv8 [4.596575711979469]
転送学習技術は、関連するデータセットの事前学習から知識を活用する。
事前トレーニングのための適切なデータセットを見つけることは、移行学習の成功を決定する上で重要な役割を果たす。
関連するデータセットで事前トレーニングされたモデルは、スクラッチからトレーニングされたモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-01-31T19:33:45Z) - Navigating Data Corruption in Machine Learning: Balancing Quality, Quantity, and Imputation Strategies [8.770864706004472]
欠落や騒々しいデータを含むデータの破損は、現実世界の機械学習において重大な課題を生じさせる。
本研究では,データ破損がモデル性能に与える影響について検討し,これらの効果を緩和するための戦略を探る。
データセットサイズの増加は軽減されるが,データ破損の影響を完全に克服することはできない。
論文 参考訳(メタデータ) (2024-12-24T09:04:06Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Word Matters: What Influences Domain Adaptation in Summarization? [43.7010491942323]
本稿では,ドメイン適応性能に影響を及ぼすきめ細かな要因について検討する。
本稿では,生成的要約の学習難しさとして,データセット学習の難しさの定量化を提案する。
実験により,データセット学習の難易度を考慮すると,要約タスクにおけるドメイン間オーバーラップと性能向上が近似線形関係を示すことがわかった。
論文 参考訳(メタデータ) (2024-06-21T02:15:49Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。
影響評価は浅いネットワークでは かなり正確です
ヘッセン正則化は、高品質な影響推定を得るために重要である。
論文 参考訳(メタデータ) (2020-06-25T18:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。