論文の概要: You Only Fine-tune Once: Many-Shot In-Context Fine-Tuning for Large Language Model
- arxiv url: http://arxiv.org/abs/2506.11103v1
- Date: Fri, 06 Jun 2025 19:36:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.462019
- Title: You Only Fine-tune Once: Many-Shot In-Context Fine-Tuning for Large Language Model
- Title(参考訳): 一度だけ微調整する:大規模言語モデルのためのマルチショットインコンテキスト微調整
- Authors: Wenchong He, Liqian Peng, Zhe Jiang, Alex Go,
- Abstract要約: 大規模言語モデル(LLM)は、文脈内学習(ICL)を実行する優れた能力を持っている
many-Shot In-Context Fine-tuning (ManyICL)は、ICLの原則をマルチショット設定に拡張することで、このパフォーマンスギャップを著しく狭める。
- 参考スコア(独自算出の注目度): 5.680203508724697
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) possess a remarkable ability to perform in-context learning (ICL), which enables them to handle multiple downstream tasks simultaneously without requiring task-specific fine-tuning. Recent studies have shown that even moderately sized LLMs, such as Mistral 7B, Gemma 7B and Llama-3 8B, can achieve ICL through few-shot in-context fine-tuning of all tasks at once. However, this approach still lags behind dedicated fine-tuning, where a separate model is trained for each individual task. In this paper, we propose a novel approach, Many-Shot In-Context Fine-tuning (ManyICL), which significantly narrows this performance gap by extending the principles of ICL to a many-shot setting. To unlock the full potential of ManyICL and address the inherent inefficiency of processing long sequences with numerous in-context examples, we propose a novel training objective. Instead of solely predicting the final answer, our approach treats every answer within the context as a supervised training target. This effectively shifts the role of many-shot examples from prompts to targets for autoregressive learning. Through extensive experiments on diverse downstream tasks, including classification, summarization, question answering, natural language inference, and math, we demonstrate that ManyICL substantially outperforms zero/few-shot fine-tuning and approaches the performance of dedicated fine-tuning. Furthermore, ManyICL significantly mitigates catastrophic forgetting issues observed in zero/few-shot fine-tuning. The code will be made publicly available upon publication.
- Abstract(参考訳): 大規模言語モデル(LLM)は、タスク固有の微調整を必要とせず、複数の下流タスクを同時に処理できる、コンテキスト内学習(ICL)を実行する優れた能力を持っている。
近年の研究では、Mistral 7B, Gemma 7B, Llama-3 8Bのような中程度のLLMでも、一度に全てのタスクをインコンテキストで微調整することでICLを実現できることが示されている。
しかしこのアプローチは、個々のタスクごとに個別のモデルをトレーニングする、専用の微調整に遅れを取っている。
本稿では、ICLの原理を多ショット設定に拡張することにより、この性能ギャップを著しく狭める新しい手法、Many-Shot In-Context Fine-tuning(ManyICL)を提案する。
manyICLの完全なポテンシャルを解き放ち、多数のテキスト内例で長いシーケンスを処理することの本来の非効率性に対処するために、新しいトレーニング目標を提案する。
最終回答を単に予測するのではなく、我々のアプローチは、コンテキスト内のすべての回答を教師付きトレーニングターゲットとして扱う。
これにより、多くの例の役割をプロンプトから自動回帰学習のターゲットへと効果的にシフトする。
分類,要約,質問応答,自然言語推論,数学など,さまざまな下流タスクに関する広範な実験を通じて,MultiICLがゼロ/フェーショットファインチューニングを著しく上回り,専用微調整の性能にアプローチすることが実証された。
さらに、M manyICL はゼロ/フェーショットファインチューニングで観察される破滅的な忘れ問題を大幅に軽減する。
コードは公開時に公開される。
関連論文リスト
- Efficient Many-Shot In-Context Learning with Dynamic Block-Sparse Attention [45.20728476185864]
マルチショットのインコンテキスト学習は、最近、ファインタニングの代替として約束されている。
これにより、計算負荷がトレーニング時間から推論時間にシフトする。
本稿では,動的ブロックスパース注意(Dynamic Block-Sparse Attention)を提案する。
論文 参考訳(メタデータ) (2025-03-11T17:30:58Z) - More is not always better? Enhancing Many-Shot In-Context Learning with Differentiated and Reweighting Objectives [51.497338578427915]
大規模言語モデル(LLM)は、パラメータ更新を必要とせずに、数ショットのインコンテキスト学習(ICL)で優れている。
DrICLは、textitDifferentiatedとtextitReweightingの目的によってモデル性能を向上させる新しい最適化手法である。
textitMany-Shot ICL Benchmark (ICL-50) は最大8,000トークンのシーケンスで1から350までのショット数をカバーした50タスクの大規模ベンチマークである。
論文 参考訳(メタデータ) (2025-01-07T14:57:08Z) - Multimodal Task Vectors Enable Many-Shot Multimodal In-Context Learning [54.74986983905282]
コンテキスト内学習には多くの例があるが、新しいタスクを学ぶには有望だ。
基本的には事前トレーニング時に設定されたモデルのコンテキスト長によって制限される。
これは、微調整なしで多くのショットを少ないトークンに圧縮するマルチモーダル法の必要性を動機付けている。
論文 参考訳(メタデータ) (2024-06-21T17:50:02Z) - Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning [55.265138447400744]
ステートメントチューニングは、有限文の集合として識別タスクをモデル化し、エンコーダモデルを訓練し、潜在的なステートメントを識別してラベルを決定するテクニックである。
その結果, ステートメント・チューニングは, パラメータが著しく少ない最先端のLCMと比較して, 競争性能が向上することを示した。
この研究は、いくつかの設計選択が少ショットとゼロショットの一般化に与える影響を調査し、ステートメントチューニングが控えめなトレーニングデータで高いパフォーマンスを達成できることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T14:05:03Z) - Many-Shot In-Context Learning [58.395589302800566]
大規模言語モデル (LLMs) は、文脈内学習 (ICL) において優れている
我々は、多種多様な生成的および識別的タスクにおける顕著なパフォーマンス向上を観察する。
少数ショット学習とは異なり、多ショット学習は事前学習されたバイアスをオーバーライドするのに効果的である。
論文 参考訳(メタデータ) (2024-04-17T02:49:26Z) - ParaICL: Towards Parallel In-Context Learning [74.38022919598443]
大規模言語モデル(LLM)が自然言語処理の標準となっている。
インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。
パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-31T05:56:15Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Multi-Task Instruction Tuning of LLaMa for Specific Scenarios: A
Preliminary Study on Writing Assistance [60.40541387785977]
小さな基礎モデルは、命令駆動データを用いて微調整された場合、多様なタスクに対処する際、顕著な習熟度を示すことができる。
本研究は, 汎用的な指導よりも, 1つないし数つの特定のタスクに主眼を置いている, 実践的な問題設定について検討する。
実験結果から,命令データに対する微調整LLaMAは,タスクの記述能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-05-22T16:56:44Z) - Learning to Perform Complex Tasks through Compositional Fine-Tuning of
Language Models [20.173322408302134]
構成微調整は、対象タスクをコンポーネントタスクに明示的に分解するアプローチである。
CFTは、同じ量のデータでもエンド・ツー・エンドの学習より優れていることを示す。
論文 参考訳(メタデータ) (2022-10-23T03:22:34Z) - Large Language Models are Zero-Shot Reasoners [28.6899375595088]
思考の連鎖(CoT)プロンプトは、ステップバイステップの回答例を通して複雑な多段階推論を引き出す手法である。
LLMは、各回答の前に単に「ステップバイステップ」を追加して、まともなゼロショット推論子であることを示す。
実験結果から,同一のプロンプトテンプレートを用いたZero-shot-CoTはゼロショットLLM性能を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-05-24T09:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。