論文の概要: P3: A Policy-Driven, Pace-Adaptive, and Diversity-Promoted Framework for Optimizing LLM Training
- arxiv url: http://arxiv.org/abs/2408.05541v1
- Date: Sat, 10 Aug 2024 12:44:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 18:31:52.229172
- Title: P3: A Policy-Driven, Pace-Adaptive, and Diversity-Promoted Framework for Optimizing LLM Training
- Title(参考訳): P3: LLMトレーニングを最適化するためのポリシー駆動、ペース適応、多様性を動機とするフレームワーク
- Authors: Yingxuan Yang, Huayi Wang, Muning Wen, Weinan Zhang,
- Abstract要約: 本稿では,大規模言語モデルにおける微調整性を高めるために,タスク固有のデータプルーニングと選択に焦点を当てる。
本稿では,動的適応型学習戦略によりLCM性能を向上させる革新的フレームワークであるP3を紹介する。
- 参考スコア(独自算出の注目度): 22.195435682922817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the rapidly evolving field of Large Language Models (LLMs), selecting high-quality data for fine-tuning is essential. This paper focuses on task-specific data pruning and selection to enhance fine-tuning. We introduce an innovative framework, termed P3, which improves LLM performance through a dynamic, adaptive training strategy. Specifically, P3 comprises the following components: (1) Policy-driven Difficulty Measurement: we begin by measuring the difficulty of data based on the model's real-time performance, transitioning from static, predefined metrics to more dynamic and adaptable ones. (2) Pace-adaptive Selection: we employ self-paced learning (SPL) to gradually select increasingly challenging data, thereby progressively enhancing the model's performance. (3) Diversity Promotion: we integrate Determinantal Point Process (DPP) into the selection process to promote the diversity within and between samples, enriching the learning process. We have validated our method on two well-known LLM datasets, APPS and MATH, designed for logical reasoning scenarios. The results show that our P3 framework significantly improves training outcomes compared to traditional methods. By fundamentally refining data selection and utilization strategies, P3 not only advances theoretical understanding of dynamic training approaches but also provides a versatile framework that can revolutionize model training in natural language processing.
- Abstract(参考訳): LLM(Large Language Models)の急速に発展する分野では、微調整のための高品質なデータを選択することが不可欠である。
本稿では,タスク固有のデータプルーニングと選択に焦点をあて,微調整の強化を図る。
本稿では,動的適応型学習戦略によりLLM性能を向上させる革新的フレームワークであるP3を紹介する。
1) ポリシー駆動の難易度測定: モデルのリアルタイムパフォーマンスに基づいてデータの難易度を測定し、静的で事前定義されたメトリクスからよりダイナミックで適応可能なものへ移行することから始めます。
2) ペース適応選択: SPL(Self-paced Learning)を用いて, ますます困難なデータを選択することにより, モデルの性能を徐々に向上させる。
3) 多様性促進: 決定点プロセス(DPP)を選択プロセスに統合し, サンプル内およびサンプル間の多様性を促進し, 学習プロセスの充実を図る。
我々は、論理的推論シナリオのために設計された2つのよく知られたLLMデータセット、APPSとMATHについて、本手法の有効性を検証した。
その結果,従来の手法と比較して,P3フレームワークはトレーニング結果を大幅に改善することがわかった。
データ選択と利用戦略を根本的に洗練することにより、P3は動的トレーニングアプローチの理論的理解を前進させるだけでなく、自然言語処理におけるモデルトレーニングに革命をもたらす汎用的なフレームワークも提供する。
関連論文リスト
- DELIFT: Data Efficient Language model Instruction Fine Tuning [13.538140114667772]
本稿では,3段階の微調整におけるデータ選択を体系的に最適化する新しいアルゴリズムであるDELIFTを紹介する。
さまざまなタスクやモデルスケールにわたる実験により、DELIFTはパフォーマンスを損なうことなく、微調整データサイズを最大70%削減できることが示された。
論文 参考訳(メタデータ) (2024-11-07T04:38:29Z) - Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。
収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文 参考訳(メタデータ) (2024-10-22T00:11:41Z) - Data Selection via Optimal Control for Language Models [134.67665351539725]
本研究は,大規模コーパスから高品質な事前学習データを選択することにより,下流利用におけるLMの能力を向上させることを目的とする。
PMP条件を解くことで最適なデータ選択を近似するフレームワークであるPMPベースのデータ選択(PDS)を導入する。
PDSの利点は、スケーリング法則に従ってテスト損失曲線の外挿によって証明されたように、10Tトークンでトレーニングされた400Bモデルにまで拡張される。
論文 参考訳(メタデータ) (2024-10-09T17:06:57Z) - Offline Reinforcement Learning with Behavioral Supervisor Tuning [0.0]
本稿では、不確実性モデルをトレーニングし、それを用いてポリシーをガイドし、データセットサポート内のアクションを選択するアルゴリズムTD3-BSTを提案する。
TD3-BSTは、以前の方法と比較してオフラインデータセットからより効果的なポリシーを学習でき、データセットごとのチューニングを必要とせずに、挑戦的なベンチマークで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-25T08:22:47Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。
より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z) - Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training [44.790636524264]
ポイント・プロンプト・トレーニング(Point Prompt Training)は、3D表現学習の文脈におけるマルチデータセットのシナジスティック学習のための新しいフレームワークである。
シナジスティック学習に関連する負の移動を克服し、一般化可能な表現を生成する。
教師付きマルチデータセットトレーニングを備えた1つの重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-18T17:59:57Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Data Augmentation through Expert-guided Symmetry Detection to Improve
Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。
近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。
学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文 参考訳(メタデータ) (2021-12-18T14:32:32Z) - On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。
本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文 参考訳(メタデータ) (2021-11-16T15:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。