論文の概要: The representation landscape of few-shot learning and fine-tuning in large language models
- arxiv url: http://arxiv.org/abs/2409.03662v1
- Date: Thu, 5 Sep 2024 16:15:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 19:53:43.197282
- Title: The representation landscape of few-shot learning and fine-tuning in large language models
- Title(参考訳): 大規模言語モデルにおける少数ショット学習と微調整の表現的景観
- Authors: Diego Doimo, Alessandro Serra, Alessio Ansuini, Alberto Cazzaniga,
- Abstract要約: In-context Learning (ICL) と supervised Fine-tuning (SFT) は、現代の大規模言語モデル (LLM) の性能向上のための2つの一般的な戦略である。
この2つの事例において,隠れた表現の確率的景観を解析した。
ICLとSFTは、どちらもネットワークの中央で急激な遷移を行う場合において、非常に異なる内部構造を生成する。
- 参考スコア(独自算出の注目度): 43.76048699313088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) and supervised fine-tuning (SFT) are two common strategies for improving the performance of modern large language models (LLMs) on specific tasks. Despite their different natures, these strategies often lead to comparable performance gains. However, little is known about whether they induce similar representations inside LLMs. We approach this problem by analyzing the probability landscape of their hidden representations in the two cases. More specifically, we compare how LLMs solve the same question-answering task, finding that ICL and SFT create very different internal structures, in both cases undergoing a sharp transition in the middle of the network. In the first half of the network, ICL shapes interpretable representations hierarchically organized according to their semantic content. In contrast, the probability landscape obtained with SFT is fuzzier and semantically mixed. In the second half of the model, the fine-tuned representations develop probability modes that better encode the identity of answers, while the landscape of ICL representations is characterized by less defined peaks. Our approach reveals the diverse computational strategies developed inside LLMs to solve the same task across different conditions, allowing us to make a step towards designing optimal methods to extract information from language models.
- Abstract(参考訳): In-context Learning (ICL) と supervised fine-tuning (SFT) は、現代の大規模言語モデル(LLM) の性能向上のための2つの一般的な戦略である。
異なる性質にもかかわらず、これらの戦略はしばしば同等のパフォーマンス向上につながる。
しかし、それらがLLMの内部で類似した表現を誘導するかどうかはほとんど分かっていない。
本稿では,2つのケースで隠れた表現の確率的景観を解析することにより,この問題に対処する。
より具体的には、LLMが同じ質問応答タスクをどのように解決するかを比較し、ICLとSFTがネットワークの中央で急激な遷移を行う場合において、非常に異なる内部構造を生成することを発見した。
ネットワークの前半では、ICLは意味的内容に応じて階層的に解釈可能な表現を形作る。
対照的に、SFTで得られる確率ランドスケープはファジィであり、意味的に混合される。
モデル後半では、微調整された表現は、回答のアイデンティティをよりよくエンコードする確率モードを発達させ、ICL表現のランドスケープは、定義の少ないピークによって特徴づけられる。
提案手法は,LLMの内部で開発されている多種多様な計算戦略を用いて,異なる条件で同じ課題を解決し,言語モデルから情報を抽出する最適な手法を設計するための一歩を踏み出したものである。
関連論文リスト
- Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Effective Demonstration Annotation for In-Context Learning via Language Model-Based Determinantal Point Process [45.632012199451275]
In-context Learning(ICL)は、インプット・アウトプット・ペアを通じてマッピングを学習する、数発の学習パラダイムである。
既存の作業は大規模にラベル付けされたサポートセットに大きく依存しているため、現実的なシナリオでは必ずしも実現できない。
言語モデルに基づく決定点プロセス(LM-DPP)を導入し、最適選択のための未ラベルインスタンスの不確かさと多様性を同時に検討する。
論文 参考訳(メタデータ) (2024-08-04T18:08:15Z) - Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。
自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。
LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文 参考訳(メタデータ) (2024-06-25T02:18:15Z) - Ensemble Learning for Heterogeneous Large Language Models with Deep Parallel Collaboration [39.35476224845088]
大規模言語モデル(LLM)は様々なタスクにおいて補完的な強みを示し、LLMアンサンブルの研究を動機付けている。
本稿では,各復号ステップで異なるLLMから得られる情報的確率分布を融合した学習自由アンサンブルフレームワークDeePEnを提案する。
論文 参考訳(メタデータ) (2024-04-19T08:52:22Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Multi-modal In-Context Learning Makes an Ego-evolving Scene Text Recognizer [32.657218195756414]
野生のシーンテキスト認識(STR)は、ドメインのバリエーション、フォントの多様性、形状の変形などに対処する際の課題に頻繁に遭遇する。
E$2$STRは、コンテキストに富んだシーンテキストシーケンスでトレーニングされたSTRモデルで、提案したインコンテキストトレーニング戦略を介してシーケンスを生成する。
E$2$STRは、様々なシナリオにおいて顕著なトレーニングなし適応を示し、公開ベンチマークにおける微調整された最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-11-22T02:46:57Z) - Flow Factorized Representation Learning [109.51947536586677]
本稿では、異なる入力変換を定義する潜在確率パスの別個のセットを規定する生成モデルを提案する。
本モデルは,ほぼ同変モデルに近づきながら,標準表現学習ベンチマークにおいて高い確率を達成することを示す。
論文 参考訳(メタデータ) (2023-09-22T20:15:37Z) - A Dual-branch Self-supervised Representation Learning Framework for
Tumour Segmentation in Whole Slide Images [12.961686610789416]
自己教師付き学習(SSL)は、スライドイメージ全体のアノテーションオーバーヘッドを低減する代替ソリューションとして登場した。
これらのSSLアプローチは、識別画像の特徴を学習する際の性能を制限するマルチレゾリューションWSIを扱うために設計されていない。
マルチ解像度WSIから画像特徴を効果的に学習できるDSF-WSI(Dual-branch SSL Framework for WSI tumour segmentation)を提案する。
論文 参考訳(メタデータ) (2023-03-20T10:57:28Z) - Weak Augmentation Guided Relational Self-Supervised Learning [80.0680103295137]
本稿では、異なるインスタンス間の関係をモデル化して表現を学習する新しいリレーショナル自己教師型学習(ReSSL)フレームワークを提案する。
提案手法では,異なるインスタンス間でのペアワイズ類似度の分布を,テクトitrelationmetricとして高めている。
実験の結果,提案したReSSLは,ネットワークアーキテクチャの異なる最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-03-16T16:14:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。