論文の概要: CommonIT: Commonality-Aware Instruction Tuning for Large Language Models via Data Partitions
- arxiv url: http://arxiv.org/abs/2410.03077v1
- Date: Fri, 4 Oct 2024 01:42:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 03:56:19.571699
- Title: CommonIT: Commonality-Aware Instruction Tuning for Large Language Models via Data Partitions
- Title(参考訳): CommonIT: データ分割による大規模言語モデルの共通性を考慮したインストラクションチューニング
- Authors: Jun Rao, Xuebo Liu, Lian Lian, Shengjun Cheng, Yunjie Liao, Min Zhang,
- Abstract要約: そこで我々はCommonIT: Commonality-aware Instruction Tuningと呼ばれる新しい指導指導戦略を導入する。
具体的には、命令データセットを3つのメトリクス(Task, Embedding, Length)で異なるグループにクラスタ化する。
LLaMaモデルの厳密なテストは、LLMの命令追従能力を向上するCommonITの有効性を示す。
- 参考スコア(独自算出の注目度): 17.252582058787937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With instruction tuning, Large Language Models (LLMs) can enhance their ability to adhere to commands. Diverging from most works focusing on data mixing, our study concentrates on enhancing the model's capabilities from the perspective of data sampling during training. Drawing inspiration from the human learning process, where it is generally easier to master solutions to similar topics through focused practice on a single type of topic, we introduce a novel instruction tuning strategy termed CommonIT: Commonality-aware Instruction Tuning. Specifically, we cluster instruction datasets into distinct groups with three proposed metrics (Task, Embedding and Length). We ensure each training mini-batch, or "partition", consists solely of data from a single group, which brings about both data randomness across mini-batches and intra-batch data similarity. Rigorous testing on LLaMa models demonstrates CommonIT's effectiveness in enhancing the instruction-following capabilities of LLMs through IT datasets (FLAN, CoT, and Alpaca) and models (LLaMa2-7B, Qwen2-7B, LLaMa 13B, and BLOOM 7B). CommonIT consistently boosts an average improvement of 2.1\% on the general domain (i.e., the average score of Knowledge, Reasoning, Multilinguality and Coding) with the Length metric, and 5.2\% on the special domain (i.e., GSM, Openfunctions and Code) with the Task metric, and 3.8\% on the specific tasks (i.e., MMLU) with the Embedding metric. Code is available at \url{https://github.com/raojay7/CommonIT}.
- Abstract(参考訳): 命令チューニングにより、LLM(Large Language Models)はコマンドに準拠する能力を高めることができる。
データミキシングに焦点を当てたほとんどの研究から切り離され、トレーニング中のデータサンプリングの観点からモデルの能力向上に重点を置いている。
人間の学習プロセスからインスピレーションを得て,ひとつのトピックに焦点を合わせることで,類似のトピックに対するソリューションの習得がより容易になるように,CommonIT: Commonality-aware Instruction Tuningという,新しい指導チューニング戦略を導入する。
具体的には、命令データセットを3つのメトリクス(Task, Embedding, Length)で異なるグループにクラスタ化する。
各トレーニングのミニバッチ(パーティション)は、単一のグループからのデータのみで構成されており、ミニバッチ全体にわたるデータランダム性と、バッチ内のデータ類似性の両方をもたらす。
LLaMaモデルの厳密なテストは、ITデータセット(FLAN、CoT、Alpaca)とモデル(LLaMa2-7B、Qwen2-7B、LLaMa 13B、BLOOM 7B)を通じてLLMの命令追従能力を向上するCommonITの有効性を示す。
CommonITは、Longthメトリックによる一般ドメイン(知識、推論、多言語性、コーディングの平均スコア)の平均2.1\%、Taskメトリックによる特殊ドメイン(GSM、オープンファンクション、コード)平均5.2\%、 Embeddingメトリックによる特定のタスク(MMLU)平均3.8\%を一貫して向上させる。
コードは \url{https://github.com/raojay7/CommonIT} で入手できる。
関連論文リスト
- Dynamic Data Mixing Maximizes Instruction Tuning for Mixture-of-Experts [20.202031878825153]
そこで本研究では,MoE命令チューニングのための新しい動的データ混合手法を提案する。
MoEのトークンルーティングの好みにインスパイアされた私たちは、データセットレベルの表現を構築し、データセット間の微妙な違いをキャプチャします。
2つのMoEモデルの結果は、下流の知識と推論タスクとオープンエンドクエリの両方に対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-06-17T06:47:03Z) - Do Membership Inference Attacks Work on Large Language Models? [141.2019867466968]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。
我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。
様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文 参考訳(メタデータ) (2024-02-12T17:52:05Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Universal Metric Learning with Parameter-Efficient Transfer Learning [40.85295050164728]
メトリック学習における一般的なプラクティスは、データセット毎に埋め込みモデルをトレーニングし、テストすることである。
このデータセット固有のアプローチは、複数の異種データの分散を含む実世界のシナリオをシミュレートすることができない。
本稿では,複数のデータ分布にまたがる関係を捉えることのできる統一されたメトリックを学習するUniversal Metric Learning(UML)という,新しいメトリック学習パラダイムを導入する。
論文 参考訳(メタデータ) (2023-09-16T10:34:01Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Boosting Natural Language Generation from Instructions with
Meta-Learning [43.64522457686405]
最近の研究によると、言語モデル(LM)はマルチタスクで訓練されている。
Textitinstructional Learning (MTIL) は多様なNLPを解くことができる。
即時チューニングよりもパフォーマンスが向上したタスク。
本稿では,MTILに適用したメタラーニングが,ゼロショット設定における未確認タスクへの一般化をさらに改善できるかどうかを検討する。
論文 参考訳(メタデータ) (2022-10-20T22:23:23Z) - When to Use Multi-Task Learning vs Intermediate Fine-Tuning for
Pre-Trained Encoder Transfer Learning [15.39115079099451]
近年,自然言語処理における伝達学習(TL)への関心が高まっている。
微調整中に複数の教師付きデータセットを使用するための3つの主要な戦略が登場した。
GLUEデータセットの包括的解析において,3つのTL手法を比較した。
論文 参考訳(メタデータ) (2022-05-17T06:48:45Z) - Semi-supervised Multi-task Learning for Semantics and Depth [88.77716991603252]
MTL(Multi-Task Learning)は、関連するタスク間で表現を共有することで、モデル一般化を強化することを目的としている。
そこで本研究では,異なるデータセットから利用可能な監視信号を活用するために,半教師付きマルチタスク学習(MTL)手法を提案する。
本稿では,データセット間の整合性の問題を軽減するために,様々なアライメントの定式化を施したドメイン認識識別器構造を提案する。
論文 参考訳(メタデータ) (2021-10-14T07:43:39Z) - Task Attended Meta-Learning for Few-Shot Learning [3.0724051098062097]
そこで我々は,タスクアサートメタトレーニングと呼ばれる,人間の選択的な焦点を動機とする学習カリキュラムを紹介し,タスクをバッチで重み付けする。
複雑なデータセットに対する非タスク付きモデルとの比較は、その有効性を検証する。
論文 参考訳(メタデータ) (2021-06-20T07:34:37Z) - Improving Generalization in Meta-learning via Task Augmentation [69.83677015207527]
本稿ではMetaMixとChannel Shuffleの2つのタスク拡張手法を提案する。
MetaMixとChannel Shuffleはどちらも、多くのデータセットにまたがる大きなマージンによって、最先端の結果を上回っている。
論文 参考訳(メタデータ) (2020-07-26T01:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。