Fugu-MT 論文翻訳(概要): Maximizing V-information for Pre-training Superior Foundation Models

論文の概要: Maximizing V-information for Pre-training Superior Foundation Models

arxiv url: http://arxiv.org/abs/2408.07107v1
Date: Tue, 13 Aug 2024 10:28:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-15 15:07:25.879703
Title: Maximizing V-information for Pre-training Superior Foundation Models
Title（参考訳）: 事前学習型高次基礎モデルのためのV情報の最大化
Authors: Wenxuan Yang, Weimin Tan, Hanyu Zhang, Bo Yan,
Abstract要約: 大規模データセットの事前トレーニング基盤モデルは、例外的なパフォーマンスを示している。最近の研究では、事前学習データの増加がモデル性能の向上につながるかどうかが疑問視されている。 V情報の最大化のための最適データ効率学習法を開発した。
参考スコア（独自算出の注目度）: 14.78688545049181
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-training foundation models on large-scale datasets demonstrates exceptional performance. However, recent research questions this traditional notion, exploring whether an increase in pre-training data always leads to enhanced model performance. To address this issue, data-effective learning approaches have been introduced. However, current methods in this area lack a clear standard for sample selection. Our experiments reveal that by maximizing V-information, sample selection can be framed as an optimization problem, enabling effective improvement in model performance even with fewer samples. Under this guidance, we develop an optimal data-effective learning method (OptiDEL) to maximize V-information. The OptiDEL method generates hard samples to achieve or even exceed the performance of models trained on the full dataset while using substantially less data. We compare the OptiDEL method with state-of-the-art approaches finding that OptiDEL consistently outperforms existing approaches across different datasets, with foundation models trained on only 5% of the pre-training data surpassing the performance of those trained on the full dataset.
Abstract（参考訳）: 大規模データセットの事前トレーニング基盤モデルは、例外的なパフォーマンスを示す。しかし、最近の研究では、事前学習データの増加がモデル性能の向上につながるかどうかという従来の考え方に疑問が呈されている。この問題に対処するため,データ効率のよい学習手法が導入された。しかし、この領域の現在の手法では、サンプル選択の明確な標準が欠落している。実験の結果, V情報の最大化により, サンプル選択を最適化問題とみなすことができ, より少ないサンプルであっても, モデル性能を効果的に向上させることができることがわかった。本稿では,V-information を最大化する最適なデータ効率学習法 (OptiDEL) を提案する。 OptiDEL法は、データ量を大幅に減らしながら、完全なデータセットでトレーニングされたモデルの性能を達成または超過するためのハードサンプルを生成する。我々はOptiDEL法と最先端のアプローチを比較し、OptiDELはさまざまなデータセットで既存のアプローチを一貫して上回り、トレーニング済みデータの5%しかトレーニングされていない基礎モデルは、フルデータセットでトレーニングされたデータのパフォーマンスを上回ります。

関連論文リスト

LLM Data Selection and Utilization via Dynamic Bi-level Optimization [100.20933466418786]
本研究では,各バッチ内で選択したデータの重み付けを調整し,トレーニング中の動的データ利用を実現するための新しいデータ重み付けモデル(DWM)を提案する。実験により,DWMはランダムに選択されたデータを用いて訓練されたモデルの性能を向上させることが示された。さらに、トレーニング中にモデルのデータ嗜好がどのように進化するかを分析し、トレーニング中のモデルのデータ嗜好に関する新たな洞察を提供する。
論文参考訳（メタデータ） (2025-07-22T02:47:12Z)
Divergence Minimization Preference Optimization for Diffusion Model Alignment [66.31417479052774]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。 DMPOは、異なるベースモデルとテストセットで既存のテクニックを一貫して上回り、適合させることができる。
論文参考訳（メタデータ） (2025-07-10T07:57:30Z)
LEAD: Iterative Data Selection for Efficient LLM Instruction Tuning [22.242445543184264]
我々は,標準トレーニングループ内でサンプルユーティリティを完全に正確に推定する,効率的な反復的データ選択フレームワークであるLEADを提案する。実験の結果、LEADは最先端の手法を著しく上回り、平均モデル性能は6.1%-10.8%向上し、トレーニングデータの2.5%しか使用せず、全体のトレーニング時間を5-10倍短縮した。
論文参考訳（メタデータ） (2025-05-12T10:57:51Z)
Clear Preferences Leave Traces: Reference Model-Guided Sampling for Preference Learning [59.11519451499754]
直接選好最適化(DPO)は、言語モデルと人間の選好を整合させるデファクトアプローチとして登場した。最近の研究によると、DPOの有効性はデータ品質のトレーニングに依存している。基準モデル確率空間は,高品質なトレーニングサンプルを自然に検出する。
論文参考訳（メタデータ） (2025-01-25T07:21:50Z)
Feasible Learning [78.6167929413604]
本稿では,サンプル中心の学習パラダイムであるFeasible Learning(FL)を紹介する。大規模言語モデルにおける画像分類, 年齢回帰, 好みの最適化といった経験的分析により, FLを用いて訓練したモデルでは, 平均的性能に限界があるものの, ERMと比較して改善された尾の挙動を示しながらデータから学習できることが実証された。
論文参考訳（メタデータ） (2025-01-24T20:39:38Z)
Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文参考訳（メタデータ） (2024-10-22T00:11:41Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
Rejection Sampling IMLE: Designing Priors for Better Few-Shot Image Synthesis [7.234618871984921]
新たな研究分野は、限られたトレーニングデータで深層生成モデルを学ぶことを目的としている。トレーニングに使用する事前分布を変更する新しいアプローチであるRS-IMLEを提案する。これにより、既存のGANやIMLEベースの手法に比べて画質が大幅に向上する。
論文参考訳（メタデータ） (2024-09-26T00:19:42Z)
Crafting Efficient Fine-Tuning Strategies for Large Language Models [2.633490094119608]
200サンプル未満の細調整された大型言語モデル(LLM)は、製品属性抽出タスクにおいて、モデル精度を70%から88%に向上させることができる。トレーニング時間全体の20%のモデルを評価するベイズハイパーパラメータ最適化法は,最終的なモデル性能と強く相関する。このアプローチにより、独立したテストセットで評価すると、ベースラインモデルよりも精度が2%向上した。
論文参考訳（メタデータ） (2024-07-18T21:36:00Z)
Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文参考訳（メタデータ） (2024-06-16T17:09:24Z)
Rethinking Overlooked Aspects in Vision-Language Models [32.525916879333145]
近年の視覚言語モデル(LVLM)の進歩は顕著である。最近の研究は、モデルの性能を向上させるために、事前学習と指導のチューニングデータの導入に重点を置いている。本稿では,事前学習におけるデータ効率の非無視的な側面と,トレーニングデータセットの選択過程について述べる。
論文参考訳（メタデータ） (2024-05-20T07:53:41Z)
How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。 Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文参考訳（メタデータ） (2024-02-15T02:27:57Z)
Towards Accelerated Model Training via Bayesian Data Selection [45.62338106716745]
本稿では,モデルの一般化損失に対するデータの影響を調べることによって,より合理的なデータ選択原理を提案する。近年の研究では、モデルの一般化損失に対するデータの影響を調べることによって、より合理的なデータ選択の原則が提案されている。この研究は、軽量ベイズ処理を活用し、大規模な事前訓練モデル上に構築された既製のゼロショット予測器を組み込むことにより、これらの問題を解決する。
論文参考訳（メタデータ） (2023-08-21T07:58:15Z)
An Empirical Study of Pre-trained Model Selection for Out-of-Distribution Generalization and Calibration [11.102950630209879]
アウト・オブ・ディストリビューション(OOD)の一般化タスクでは、微調整された事前学習モデルが一般的な戦略となっている。本研究では,事前学習モデルサイズ,事前学習データセットサイズ,トレーニング戦略が一般化と不確実性校正にどのように影響するかを検討した。
論文参考訳（メタデータ） (2023-07-17T01:27:10Z)
Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。 CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文参考訳（メタデータ） (2023-05-18T16:28:29Z)
Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文参考訳（メタデータ） (2022-09-30T02:25:12Z)
An Empirical Study on Distribution Shift Robustness From the Perspective of Pre-Training and Data Augmentation [91.62129090006745]
本稿では,事前学習とデータ拡張の観点から分布シフト問題を考察する。我々は,事前学習とデータ拡張に焦点を当てた,最初の総合的な実証的研究を行った。
論文参考訳（メタデータ） (2022-05-25T13:04:53Z)
Improved Fine-tuning by Leveraging Pre-training Data: Theory and Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文参考訳（メタデータ） (2021-11-24T06:18:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。