論文の概要: Fine-tuned network relies on generic representation to solve unseen cognitive task
- arxiv url: http://arxiv.org/abs/2406.18926v1
- Date: Thu, 27 Jun 2024 06:33:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 15:06:48.853780
- Title: Fine-tuned network relies on generic representation to solve unseen cognitive task
- Title(参考訳): ファインチューニングネットワークは、目に見えない認知課題を解決するために汎用表現に依存している
- Authors: Dongyan Lin,
- Abstract要約: 微調整された事前訓練された言語モデルは、幅広いタスクにおいて有望な結果を示しているが、それらはより一般的な事前訓練された表現に依存しているのだろうか?
そこで我々は,GPT-2を文脈依存型意思決定タスクで微調整し,モデルに新しいが神経科学の文献に適応した。
我々は、その性能と内部メカニズムを、同じタスクでスクラッチからトレーニングしたGPT-2のバージョンと比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning pretrained language models has shown promising results on a wide range of tasks, but when encountering a novel task, do they rely more on generic pretrained representation, or develop brand new task-specific solutions? Here, we fine-tuned GPT-2 on a context-dependent decision-making task, novel to the model but adapted from neuroscience literature. We compared its performance and internal mechanisms to a version of GPT-2 trained from scratch on the same task. Our results show that fine-tuned models depend heavily on pretrained representations, particularly in later layers, while models trained from scratch develop different, more task-specific mechanisms. These findings highlight the advantages and limitations of pretraining for task generalization and underscore the need for further investigation into the mechanisms underpinning task-specific fine-tuning in LLMs.
- Abstract(参考訳): 微調整された事前訓練された言語モデルは、幅広いタスクに対して有望な結果を示しているが、新しいタスクに遭遇すると、より一般的な事前訓練された表現に依存するのか、それとも新しいタスク固有のソリューションを開発するのか?
そこで我々は,GPT-2を文脈依存型意思決定タスクで微調整し,モデルに新しいが神経科学の文献に適応した。
我々は、その性能と内部メカニズムを、同じタスクでスクラッチからトレーニングしたGPT-2のバージョンと比較した。
実験の結果,微調整モデルでは,特に後層では事前訓練された表現に大きく依存し,スクラッチからトレーニングしたモデルでは,タスク固有のメカニズムがより異なる。
これらの知見は、タスク一般化のための事前訓練の利点と限界を浮き彫りにし、LLMにおけるタスク固有微調整を支えるメカニズムのさらなる研究の必要性を浮き彫りにした。
関連論文リスト
- Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Skeleton-in-Context: Unified Skeleton Sequence Modeling with In-Context Learning [23.846476546733406]
In-context Learningは、視覚とNLPのためのマルチタスクモデリングの新しい視点を提供する。
In-context skeleton sequence modeling のための効果的なフレームワークである Skeleton-in-Context を提案する。
我々のモデルは、最先端のマルチタスク性能を実現し、特定のタスクにおいてシングルタスクメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-12-06T18:59:44Z) - Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z) - Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and
Vision-Language Tasks [86.66733026149892]
大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。
具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。
Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
論文 参考訳(メタデータ) (2022-11-17T18:59:52Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional
MoEs [63.936622239286685]
異なるタスクとモダリティ間の干渉が、この現象の主要な要因であることがわかった。
一般モデルに条件混合(Conditional Mixture-of-Experts)を導入する。
コード及び事前訓練されたジェネリストモデルは、解放される。
論文 参考訳(メタデータ) (2022-06-09T17:59:59Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Grad2Task: Improved Few-shot Text Classification Using Gradients for
Task Representation [24.488427641442694]
本稿では,数ショットのテキスト分類のための条件付きニューラルプロセスに基づく新しいアプローチを提案する。
私たちのキーとなるアイデアは、ベースモデルからの勾配情報を使って各タスクを表現することです。
我々のアプローチは、従来の微調整、シーケンシャルトランスファーラーニング、そして最先端のメタラーニングアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-01-27T15:29:30Z) - Pre-training with Meta Learning for Chinese Word Segmentation [44.872788258481755]
本稿では,CWS固有の事前学習モデルMETASEGを提案する。
METASEGは、広く使用されている12のCWSデータセット上で、最先端の新たなパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2020-10-23T10:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。