論文の概要: The Right Time Matters: Data Arrangement Affects Zero-Shot Generalization in Instruction Tuning
- arxiv url: http://arxiv.org/abs/2406.11721v2
- Date: Mon, 07 Apr 2025 14:21:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 01:49:57.649993
- Title: The Right Time Matters: Data Arrangement Affects Zero-Shot Generalization in Instruction Tuning
- Title(参考訳): データアレンジメントはインストラクションチューニングにおけるゼロショットの一般化に影響を及ぼす
- Authors: Bingxiang He, Ning Ding, Cheng Qian, Jia Deng, Ganqu Cui, Lifan Yuan, Haiwen Hong, Huan-ang Gao, Longtao Huang, Hui Xue, Huimin Chen, Zhiyuan Liu, Maosong Sun,
- Abstract要約: インストラクションチューニングにおいてゼロショットの一般化は非常に早い段階で起こることを示す。
より基礎的なトレーニングデータアレンジメントフレームワークであるテスト中心型マルチターンアレンジメントを提案する。
- 参考スコア(独自算出の注目度): 86.19804569376333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding alignment techniques begins with comprehending zero-shot generalization brought by instruction tuning, but little of the mechanism has been understood. Existing work has largely been confined to the task level, without considering that tasks are artificially defined and, to LLMs, merely consist of tokens and representations. To bridge this gap, we investigate zero-shot generalization from the perspective of the data itself. We first demonstrate that zero-shot generalization happens very early during instruction tuning, with loss serving as a stable indicator. Next, we investigate training data arrangement through similarity and granularity perspectives, confirming that the timing of exposure to certain training examples may greatly facilitate generalization on unseen tasks. Finally, we propose a more grounded training data arrangement framework, Test-centric Multi-turn Arrangement, and show its effectiveness in promoting continual learning and further loss reduction. For the first time, we show that zero-shot generalization during instruction tuning is a form of similarity-based generalization between training and test data at the instance level. Our code is released at https://github.com/thunlp/Dynamics-of-Zero-Shot-Generalization.
- Abstract(参考訳): アライメントの理解は、命令チューニングによってもたらされるゼロショットの一般化を理解することから始まるが、そのメカニズムはほとんど理解されていない。
既存の作業は、タスクが人工的に定義され、LLMに対して単にトークンと表現で構成されていることを考慮せずに、タスクレベルに限られている。
このギャップを埋めるために、データ自体の観点からゼロショットの一般化を考察する。
まず、ゼロショットの一般化は命令チューニング時に非常に早い段階で起こり、損失は安定な指標として機能することを示した。
次に、類似性と粒度の観点から、トレーニングデータアレンジメントを調査し、特定のトレーニング例への露出のタイミングが、目に見えないタスクの一般化を大いに促進することを確認する。
最後に,より基礎的なトレーニングデータアレンジメントフレームワークであるテスト中心型マルチターンアレンジメントを提案する。
インストラクションチューニング中のゼロショット一般化は、インスタンスレベルでのトレーニングとテストデータ間の類似性に基づく一般化の形式であることを示す。
私たちのコードはhttps://github.com/thunlp/Dynamics-of-Zero-Shot-Generalizationでリリースされています。
関連論文リスト
- Generalization Capability for Imitation Learning [1.30536490219656]
模倣学習は、専門家によるデモンストレーションから学ぶことで、多芸なスキルを持つロボットを装備するという約束を果たす。
しかしながら、有限データセットで訓練されたポリシーは、トレーニング分布を超えた一般化に苦慮することが多い。
本稿では、情報理論とデータ分散特性の両方を基礎とした模倣学習の一般化能力に関する統一的な視点を示す。
論文 参考訳(メタデータ) (2025-04-25T17:59:59Z) - Towards Robust Few-shot Class Incremental Learning in Audio Classification using Contrastive Representation [1.3586572110652484]
少数のクラスインクリメンタルな学習は、限られた受信データから生じる課題に対処する。
我々は、表現空間を洗練させ、識別力を高め、より良い一般化をもたらすための教師付きコントラスト学習を提案する。
論文 参考訳(メタデータ) (2024-07-27T14:16:25Z) - Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。
既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T12:19:37Z) - Improving Zero-shot Generalization of Learned Prompts via Unsupervised Knowledge Distillation [14.225723195634941]
より強力なモデルからの教師なし知識の蒸留に基づく学習を促す新しい手法を提案する。
我々はKDPL(Knowledge Distillation Prompt Learning)と呼ぶアプローチを,既存の即興学習技術に統合することができる。
論文 参考訳(メタデータ) (2024-07-03T12:24:40Z) - On the Generalization Ability of Unsupervised Pretraining [53.06175754026037]
教師なし学習の最近の進歩は、教師なし事前学習、および微調整がモデル一般化を改善することを示している。
本稿では、教師なし事前学習中に得られた知識の伝達可能性に影響を及ぼす重要な要因をその後の微調整フェーズに照らす新しい理論的枠組みを提案する。
この結果は教師なし事前学習と微調整のパラダイムの理解を深め、より効果的な事前学習アルゴリズムの設計に光を当てることができる。
論文 参考訳(メタデータ) (2024-03-11T16:23:42Z) - Closing the Gap between TD Learning and Supervised Learning -- A
Generalisation Point of View [51.30152184507165]
いくつかの強化学習(RL)アルゴリズムは、トレーニング中に見たことのないタスクを解決するために、経験の断片を縫い合わせることができる。
このoft-sought特性は、動的プログラミングに基づくRL法と教師あり学習(SL)に基づくRL法とを区別する数少ない方法の1つである。
これらの方法がこの重要な縫合特性を許すかどうかは不明である。
論文 参考訳(メタデータ) (2024-01-20T14:23:25Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Leveraging Time Irreversibility with Order-Contrastive Pre-training [3.1848820580333737]
時系列データに基づく自己教師付き事前学習のための「順序コントラスト」手法について検討する。
本研究では,順序コントラスト事前学習で学習した表現の下流誤差に対する有限サンプル保証を証明した。
この結果から,特定の分布クラスや下流タスクのために設計された事前学習手法が,自己指導型学習の性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2021-11-04T02:56:52Z) - Towards the Generalization of Contrastive Self-Supervised Learning [11.889992921445849]
本稿では, 自己教師付き事前学習モデルが下流タスクにどのように一般化するかを理論的に説明する。
さらに,SimCLR と Barlow Twins についても検討する。
論文 参考訳(メタデータ) (2021-11-01T07:39:38Z) - Explaining generalization in deep learning: progress and fundamental
limits [8.299945169799795]
論文の前半では、勾配勾配による深層ネットワークのトレーニングがネットワークの容量を暗黙的に制御する方法を実証的に研究する。
次に、パラメータ数に対する依存性を改善した一様収束に基づく一般化境界を、データ依存の em から導出する。
論文の最後の部分では、未ラベルデータを用いて一般化を推定する経験的手法を導入する。
論文 参考訳(メタデータ) (2021-10-17T21:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。