Fugu-MT 論文翻訳(概要): Beyond Efficiency: Molecular Data Pruning for Enhanced Generalization

論文の概要: Beyond Efficiency: Molecular Data Pruning for Enhanced Generalization

arxiv url: http://arxiv.org/abs/2409.01081v1
Date: Mon, 2 Sep 2024 09:06:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 07:38:47.761130
Title: Beyond Efficiency: Molecular Data Pruning for Enhanced Generalization
Title（参考訳）: 効率性を超えて: 一般化のための分子データプルーニング
Authors: Dingshuo Chen, Zhixun Li, Yuyan Ni, Guibin Zhang, Ding Wang, Qiang Liu, Shu Wu, Jeffrey Xu Yu, Liang Wang,
Abstract要約: MolPegは、一般化を強化するための分子データプルーニングフレームワークである。これは、事前訓練されたモデルでデータプルーニングを適用する、ソースフリーなデータプルーニングシナリオに焦点を当てている。 4つのダウンストリームタスクで既存のDPメソッドを一貫して上回ります。
参考スコア（独自算出の注目度）: 30.738229850748137
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the emergence of various molecular tasks and massive datasets, how to perform efficient training has become an urgent yet under-explored issue in the area. Data pruning (DP), as an oft-stated approach to saving training burdens, filters out less influential samples to form a coreset for training. However, the increasing reliance on pretrained models for molecular tasks renders traditional in-domain DP methods incompatible. Therefore, we propose a Molecular data Pruning framework for enhanced Generalization (MolPeg), which focuses on the source-free data pruning scenario, where data pruning is applied with pretrained models. By maintaining two models with different updating paces during training, we introduce a novel scoring function to measure the informativeness of samples based on the loss discrepancy. As a plug-and-play framework, MolPeg realizes the perception of both source and target domain and consistently outperforms existing DP methods across four downstream tasks. Remarkably, it can surpass the performance obtained from full-dataset training, even when pruning up to 60-70% of the data on HIV and PCBA dataset. Our work suggests that the discovery of effective data-pruning metrics could provide a viable path to both enhanced efficiency and superior generalization in transfer learning.
Abstract（参考訳）: 様々な分子タスクや大量のデータセットの出現により、効率的なトレーニングの実施は、この地域で急務だが未調査の課題となっている。データプルーニング(DP)は、トレーニングの負担を減らし、あまり影響力のないサンプルをフィルタリングし、トレーニングのコアセットを形成する。しかし、分子タスクの事前訓練モデルへの依存が高まると、従来のドメイン内DPメソッドは互換性がなくなる。そこで本研究では,データ解析を事前訓練したモデルに適用する,ソースフリーなデータ解析シナリオに焦点を当てた,拡張一般化(MolPeg)のための分子データ解析フレームワークを提案する。トレーニング中に異なる更新ペースで2つのモデルを維持することにより、損失差に基づいてサンプルの情報量を測定する新しいスコアリング機能を導入する。 MolPegはプラグイン・アンド・プレイのフレームワークとして、ソースドメインとターゲットドメインの両方の認識を実現し、4つの下流タスクで既存のDPメソッドを一貫して上回ります。注目すべきは、HIVおよびPCBAデータセット上のデータの60～70%をプルーニングしても、フルデータセットトレーニングから得られるパフォーマンスを上回ることができることだ。我々の研究は、効率的なデータ処理メトリクスの発見が、転送学習における効率の向上と優れた一般化の両方に有効な道をもたらすことを示唆している。

関連論文リスト

Can Small Training Runs Reliably Guide Data Curation? Rethinking Proxy-Model Practice [109.9635246405237]
データ品質に関する実験結果が、ハイパーパラメータのトレーニングに微調整を加えることで、反転できることを示す。評価プロトコルに簡単なパッチを導入し、プロキシモデルのトレーニングに学習率を削減した。実験により,データキュレーションの4つの重要な次元をカバーする23種類のデータレシピに対して,このアプローチを検証した。
論文参考訳（メタデータ） (2025-12-30T23:02:44Z)
Learning from Generalization Patterns: An Evaluation-Driven Approach to Enhanced Data Augmentation for Fine-Tuning Small Language Models [16.470481192733676]
PaDA-Agentは、SLMのデータ拡張プロセスを合理化する評価駆動型アプローチである。実験結果から,Llama 3.2 1Bインストラクトモデルファインタニングのための,最先端のLCMベースのデータ拡張手法に対する顕著な改善が示された。
論文参考訳（メタデータ） (2025-10-20T22:36:46Z)
Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文参考訳（メタデータ） (2025-10-16T03:37:16Z)
Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。 AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文参考訳（メタデータ） (2025-05-24T05:17:53Z)
LEAD: Iterative Data Selection for Efficient LLM Instruction Tuning [22.242445543184264]
我々は,標準トレーニングループ内でサンプルユーティリティを完全に正確に推定する,効率的な反復的データ選択フレームワークであるLEADを提案する。実験の結果、LEADは最先端の手法を著しく上回り、平均モデル性能は6.1%-10.8%向上し、トレーニングデータの2.5%しか使用せず、全体のトレーニング時間を5-10倍短縮した。
論文参考訳（メタデータ） (2025-05-12T10:57:51Z)
Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-12-12T18:28:55Z)
BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping [64.8477128397529]
本稿では,テスト時間適応フレームワークを提案する。我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
論文参考訳（メタデータ） (2024-10-20T15:58:43Z)
Pruning then Reweighting: Towards Data-Efficient Training of Diffusion Models [33.09663675904689]
データセットプルーニングの観点から,効率的な拡散訓練について検討する。 GAN(Generative Adversarial Network)のような生成モデルに対するデータ効率トレーニングの原則に着想を得て、まず、GANで使用されるデータ選択スキームをDMトレーニングに拡張する。生成性能をさらに向上するため,クラスワイド・リウェイト方式を採用する。
論文参考訳（メタデータ） (2024-09-27T20:21:19Z)
SoftDedup: an Efficient Data Reweighting Method for Speeding Up Language Model Pre-training [12.745160748376794]
本稿では,データセットの整合性を維持しつつ,データのサンプリング重量を高い共通度で選択的に削減するソフトデ重複手法を提案する。このアプローチの中心にあるのは、重複の度合いを定量化する指標である"データ共通性"(data commonness)の概念です。経験的分析により、この手法はトレーニング効率を著しく改善し、必要なトレーニングステップを少なくとも26%減らすことなく、同等のパープレキシティスコアを達成できることが示されている。
論文参考訳（メタデータ） (2024-07-09T08:26:39Z)
Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文参考訳（メタデータ） (2024-06-18T16:20:12Z)
Not All Data Matters: An End-to-End Adaptive Dataset Pruning Framework for Enhancing Model Performance and Efficiency [9.460023981858319]
本稿では,AdaPruner と呼ばれる適応型 DAtaset PRUNing フレームワークを提案する。 AdaPrunerは、冗長なサンプルを期待プルーニング比率に反復的にプルークする。トレーニングデータの最大10～30%をプルーニングしても、モデルパフォーマンスを著しく向上させることができる。
論文参考訳（メタデータ） (2023-12-09T16:01:21Z)
Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。実験結果から,本手法は既存手法よりも一貫した改善が得られた。我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文参考訳（メタデータ） (2023-11-27T06:19:50Z)
Selectivity Drives Productivity: Efficient Dataset Pruning for Enhanced Transfer Learning [66.20311762506702]
データセットプルーニング(DP)は、データ効率を改善する効果的な方法として登場した。本稿では,ラベルマッピングと特徴マッピングという2つの新しいDP手法を提案する。ダウンストリーム性能を犠牲にすることなく、ソースデータクラスを最大40%まで刈り取ることができることを示す。
論文参考訳（メタデータ） (2023-10-13T00:07:49Z)
D4: Improving LLM Pretraining via Document De-Duplication and Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文参考訳（メタデータ） (2023-08-23T17:58:14Z)
Cluster-level pseudo-labelling for source-free cross-domain facial expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文参考訳（メタデータ） (2022-10-11T08:24:50Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。