論文の概要: RAISE: Reinforenced Adaptive Instruction Selection For Large Language Models
- arxiv url: http://arxiv.org/abs/2504.07282v2
- Date: Mon, 14 Apr 2025 16:23:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 13:21:52.363945
- Title: RAISE: Reinforenced Adaptive Instruction Selection For Large Language Models
- Title(参考訳): RAISE:大規模言語モデルに対する適応的命令選択の強化
- Authors: Lv Qingsong, Yangning Li, Zihua Lan, Zishan Xu, Jiwei Tang, Yinghui Li, Wenhao Jiang, Hai-Tao Zheng, Philip S. Yu,
- Abstract要約: 本稿では,タスクオブジェクト駆動型命令選択フレームワークRAISEを提案する。
RAISEは命令の微調整プロセス全体を最適化に組み込んでいる。
モデルの性能改善に対する命令の期待される影響に基づいて,各ステップで命令を選択する。
- 参考スコア(独自算出の注目度): 48.63476198469349
- License:
- Abstract: In the instruction fine-tuning of large language models (LLMs), it has become a consensus that a few high-quality instructions are superior to a large number of low-quality instructions. At present, many instruction selection methods have been proposed, but most of these methods select instruction based on heuristic quality metrics, and only consider data selection before training. These designs lead to insufficient optimization of instruction fine-tuning, and fixed heuristic indicators are often difficult to optimize for specific tasks. So we designed a dynamic, task-objective-driven instruction selection framework RAISE(Reinforenced Adaptive Instruction SElection), which incorporates the entire instruction fine-tuning process into optimization, selecting instruction at each step based on the expected impact of instruction on model performance improvement. Our approach is well interpretable and has strong task-specific optimization capabilities. By modeling dynamic instruction selection as a sequential decision-making process, we use RL to train our selection strategy. Extensive experiments and result analysis prove the superiority of our method compared with other instruction selection methods. Notably, RAISE achieves superior performance by updating only 1\% of the training steps compared to full-data training, demonstrating its efficiency and effectiveness.
- Abstract(参考訳): 大規模言語モデル(LLM)の微調整では、少数の高品質な命令が多数の低品質な命令よりも優れているという意見が一致している。
現在、多くの命令選択法が提案されているが、これらの手法の多くはヒューリスティックな品質指標に基づいて命令を選択し、訓練前にのみデータ選択を考慮する。
これらの設計は命令の微調整の最適化を不十分にし、固定されたヒューリスティックなインジケータは特定のタスクに最適化することがしばしば困難である。
そこで我々は,命令の微調整プロセス全体を最適化に組み込んだ動的タスク対象駆動型命令選択フレームワーク RAISE (Reinforenced Adaptive Instruction Selection) を設計した。
私たちのアプローチはよく解釈可能で、タスク固有の最適化機能があります。
動的命令選択を逐次決定過程としてモデル化することにより、RLを用いて選択戦略を訓練する。
大規模な実験と結果解析は,他の命令選択法と比較して,本手法の優位性を証明している。
特に、RAISEは、フルデータトレーニングと比較してトレーニングステップの16%しか更新せず、その効率と効果を実証することで、優れたパフォーマンスを実現している。
関連論文リスト
- IterSelectTune: An Iterative Training Framework for Efficient Instruction-Tuning Data Selection [28.581257601441045]
高品質な命令データを選択するための効率的で費用対効果の高い反復的トレーニングポリシーである$textbfIterSelectTune$を紹介した。
ソースデータの約20%を微調整することで、本手法は、全データセット上で調整されたモデルよりも一貫して優れる。
論文 参考訳(メタデータ) (2024-10-17T11:48:57Z) - Beyond IID: Optimizing Instruction Learning from the Perspective of Instruction Interaction and Dependency [12.145516262749643]
各種命令のカテゴリ間の相互作用と依存性パターンを, 微調整型大言語モデル (LLM) に適用する。
異なるLLMに対する実験結果から、広く採用されているベンチマークにおいて、強いベースラインよりも性能が向上したことが示された。
論文 参考訳(メタデータ) (2024-09-11T06:27:50Z) - Large Language Models Prompting With Episodic Memory [53.8690170372303]
本稿では,POEM(PrOmpting with Episodic Memory)を提案する。
テストフェーズでは、各テストクエリのサンプルのシーケンスを最適化し、エピソードメモリにおけるトップkで最も類似したトレーニング例から最も高い合計報酬を得るシーケンスを選択する。
その結果,POEMはテキスト分類タスクにおいてTEMPERAやRLPromptといった最近の技術よりも5.3%向上していることがわかった。
論文 参考訳(メタデータ) (2024-08-14T11:19:28Z) - Automatic Instruction Evolving for Large Language Models [93.52437926313621]
Auto Evol-Instructは、人間の努力なしに大規模な言語モデルを使用して命令データセットを進化させるエンドツーエンドフレームワークである。
実験の結果, Auto Evol-Instruct で最適化された最良の手法は, 様々なベンチマークにおいて, 人為的に設計した手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-02T15:09:00Z) - Mosaic-IT: Free Compositional Data Augmentation Improves Instruction Tuning [30.82220015525281]
モザイクインストラクションチューニング(Mosaic Instruction Tuning、モザイクインストラクションチューニング、Mosaic-IT)は、人間/モデルなしのコンポジションデータ拡張手法である。
Mosaic-ITは、既存の命令チューニングデータから、ランダムにリッチで多様な拡張を生成する。
評価の結果,モザイクITの性能と訓練効率が向上した。
論文 参考訳(メタデータ) (2024-05-22T04:08:20Z) - Instruction Matters: A Simple yet Effective Task Selection for Optimized Instruction Tuning of Specific Tasks [51.15473776489712]
本稿では,命令情報のみを利用してタスクを識別する,シンプルで効果的なタスク選択手法を提案する。
提案手法は,タスク間のペア転送可能性の複雑な測定や,対象タスクのためのデータサンプルの作成を必要とする従来の手法に比べて,はるかに効率的である。
実験の結果、命令のみに選択されたタスクセットのトレーニングにより、P3、Big-Bench、NIV2、Big-Bench Hardといったベンチマークのパフォーマンスが大幅に改善された。
論文 参考訳(メタデータ) (2024-04-25T08:49:47Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - InstOptima: Evolutionary Multi-objective Instruction Optimization via
Large Language Model-based Instruction Operators [9.004528034920266]
InstOptimaは、命令生成を進化的多目的最適化問題として扱う。
演算子に対して客観的誘導機構を導入し、LLMが目的を理解し、生成した命令の品質を向上させる。
実験により、微調整性能の向上と、高品質な命令セットの多種多様な生成が示された。
論文 参考訳(メタデータ) (2023-10-26T17:48:45Z) - Bayesian Optimization for Selecting Efficient Machine Learning Models [53.202224677485525]
本稿では,予測効率とトレーニング効率の両面において,モデルを協調最適化するための統一ベイズ最適化フレームワークを提案する。
レコメンデーションタスクのためのモデル選択の実験は、この方法で選択されたモデルがモデルのトレーニング効率を大幅に改善することを示している。
論文 参考訳(メタデータ) (2020-08-02T02:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。