論文の概要: You Only Fine-tune Once: Many-Shot In-Context Fine-Tuning for Large Language Model
- arxiv url: http://arxiv.org/abs/2506.11103v1
- Date: Fri, 06 Jun 2025 19:36:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.462019
- Title: You Only Fine-tune Once: Many-Shot In-Context Fine-Tuning for Large Language Model
- Title(参考訳): 一度だけ微調整する:大規模言語モデルのためのマルチショットインコンテキスト微調整
- Authors: Wenchong He, Liqian Peng, Zhe Jiang, Alex Go,
- Abstract要約: 大規模言語モデル(LLM)は、文脈内学習(ICL)を実行する優れた能力を持っている
many-Shot In-Context Fine-tuning (ManyICL)は、ICLの原則をマルチショット設定に拡張することで、このパフォーマンスギャップを著しく狭める。
- 参考スコア(独自算出の注目度): 5.680203508724697
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) possess a remarkable ability to perform in-context learning (ICL), which enables them to handle multiple downstream tasks simultaneously without requiring task-specific fine-tuning. Recent studies have shown that even moderately sized LLMs, such as Mistral 7B, Gemma 7B and Llama-3 8B, can achieve ICL through few-shot in-context fine-tuning of all tasks at once. However, this approach still lags behind dedicated fine-tuning, where a separate model is trained for each individual task. In this paper, we propose a novel approach, Many-Shot In-Context Fine-tuning (ManyICL), which significantly narrows this performance gap by extending the principles of ICL to a many-shot setting. To unlock the full potential of ManyICL and address the inherent inefficiency of processing long sequences with numerous in-context examples, we propose a novel training objective. Instead of solely predicting the final answer, our approach treats every answer within the context as a supervised training target. This effectively shifts the role of many-shot examples from prompts to targets for autoregressive learning. Through extensive experiments on diverse downstream tasks, including classification, summarization, question answering, natural language inference, and math, we demonstrate that ManyICL substantially outperforms zero/few-shot fine-tuning and approaches the performance of dedicated fine-tuning. Furthermore, ManyICL significantly mitigates catastrophic forgetting issues observed in zero/few-shot fine-tuning. The code will be made publicly available upon publication.
- Abstract(参考訳): 大規模言語モデル(LLM)は、タスク固有の微調整を必要とせず、複数の下流タスクを同時に処理できる、コンテキスト内学習(ICL)を実行する優れた能力を持っている。
近年の研究では、Mistral 7B, Gemma 7B, Llama-3 8Bのような中程度のLLMでも、一度に全てのタスクをインコンテキストで微調整することでICLを実現できることが示されている。
しかしこのアプローチは、個々のタスクごとに個別のモデルをトレーニングする、専用の微調整に遅れを取っている。
本稿では、ICLの原理を多ショット設定に拡張することにより、この性能ギャップを著しく狭める新しい手法、Many-Shot In-Context Fine-tuning(ManyICL)を提案する。
manyICLの完全なポテンシャルを解き放ち、多数のテキスト内例で長いシーケンスを処理することの本来の非効率性に対処するために、新しいトレーニング目標を提案する。
最終回答を単に予測するのではなく、我々のアプローチは、コンテキスト内のすべての回答を教師付きトレーニングターゲットとして扱う。
これにより、多くの例の役割をプロンプトから自動回帰学習のターゲットへと効果的にシフトする。
分類,要約,質問応答,自然言語推論,数学など,さまざまな下流タスクに関する広範な実験を通じて,MultiICLがゼロ/フェーショットファインチューニングを著しく上回り,専用微調整の性能にアプローチすることが実証された。
さらに、M manyICL はゼロ/フェーショットファインチューニングで観察される破滅的な忘れ問題を大幅に軽減する。
コードは公開時に公開される。
関連論文リスト
- Efficient Many-Shot In-Context Learning with Dynamic Block-Sparse Attention [45.20728476185864]
マルチショットのインコンテキスト学習は、最近、ファインタニングの代替として約束されている。
これにより、計算負荷がトレーニング時間から推論時間にシフトする。
本稿では,動的ブロックスパース注意(Dynamic Block-Sparse Attention)を提案する。
論文 参考訳(メタデータ) (2025-03-11T17:30:58Z) - More is not always better? Enhancing Many-Shot In-Context Learning with Differentiated and Reweighting Objectives [51.497338578427915]
大規模言語モデル(LLM)は、パラメータ更新を必要とせずに、数ショットのインコンテキスト学習(ICL)で優れている。
DrICLは、textitDifferentiatedとtextitReweightingの目的によってモデル性能を向上させる新しい最適化手法である。
textitMany-Shot ICL Benchmark (ICL-50) は最大8,000トークンのシーケンスで1から350までのショット数をカバーした50タスクの大規模ベンチマークである。
論文 参考訳(メタデータ) (2025-01-07T14:57:08Z) - Multimodal Task Vectors Enable Many-Shot Multimodal In-Context Learning [54.74986983905282]
コンテキスト内学習には多くの例があるが、新しいタスクを学ぶには有望だ。
基本的には事前トレーニング時に設定されたモデルのコンテキスト長によって制限される。
これは、微調整なしで多くのショットを少ないトークンに圧縮するマルチモーダル法の必要性を動機付けている。
論文 参考訳(メタデータ) (2024-06-21T17:50:02Z) - Many-Shot In-Context Learning [58.395589302800566]
大規模言語モデル (LLMs) は、文脈内学習 (ICL) において優れている
我々は、多種多様な生成的および識別的タスクにおける顕著なパフォーマンス向上を観察する。
少数ショット学習とは異なり、多ショット学習は事前学習されたバイアスをオーバーライドするのに効果的である。
論文 参考訳(メタデータ) (2024-04-17T02:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。