論文の概要: Mechanistic Behavior Editing of Language Models
- arxiv url: http://arxiv.org/abs/2410.04277v1
- Date: Sat, 5 Oct 2024 19:58:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 08:49:52.151194
- Title: Mechanistic Behavior Editing of Language Models
- Title(参考訳): 言語モデルの機械的行動編集
- Authors: Joykirat Singh, Subhabrata Dutta, Tanmoy Chakraborty,
- Abstract要約: Webスケールのテキストで訓練された大規模言語モデルは、幅広いタスクを解決できる言語生成能力を取得する。
監督された微調整はタスク特異性を導入するが、データ非効率性を導入する。
タスク適応のための新しい手法であるTaRotを提案する。
- 参考スコア(独自算出の注目度): 22.810441504080703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models trained on web-scale text acquire language generation abilities that can solve a wide range of tasks, particularly when task knowledge is refined into the generative prior using in-context examples. However, spurious features learned from noisy data hinder their generalizability. Supervised finetuning can introduce task specificity, but introduce data inefficiency. Prior studies indicate that (i) noisy neural circuitries coexist with generalizable ones within LLMs, and (ii) finetuning typically enhances (or suppresses) existing abilities without introducing newer ones. Building upon these, we propose TaRot, a novel method for task adaptation. TaRot intervenes in the neural circuitries using learnable rotation matrices that are optimized using Bayesian Optimization, on labelled samples in the order of standard few-shot prompting examples. Experiments on multiple classification and generation tasks using LLMs of varying sizes reveal the efficacy of TaRot, improving upon both zero- as well as few-shot performance, with average improvements (across models and tasks) of 23.81% and 11.15%, respectively. The source code is available at https://github.com/joykirat18/TaRot
- Abstract(参考訳): Webスケールのテキストで訓練された大規模言語モデルは、特にタスク知識がテキスト内の例を使って生成前に改良された場合に、幅広いタスクを解決できる言語生成能力を取得する。
しかし、ノイズの多いデータから学んだ突発的な特徴は、その一般化を妨げている。
監督された微調整はタスク特異性を導入するが、データ非効率性を導入する。
先行研究は
i)LLM内の一般化可能な回路と共存する雑音性神経回路
(二)ファインタニングは、新しいものを導入することなく、通常既存の能力を増強(または抑制)する。
そこで本研究では,タスク適応のための新しい手法であるTaRotを提案する。
TaRotは、ベイジアン最適化を用いて最適化された学習可能な回転行列を用いて、標準的な数ショットプロンプトの例の順にラベル付きサンプルに介入する。
様々な大きさのLSMを用いた複数分類および生成タスクの実験では、Torrotの有効性が明らかになり、ゼロと少数ショットのパフォーマンスが向上し、平均的な改善(モデルとタスク全体)はそれぞれ23.81%と11.15%となった。
ソースコードはhttps://github.com/joykirat18/TaRotで入手できる。
関連論文リスト
- Less is More: Parameter-Efficient Selection of Intermediate Tasks for Transfer Learning [5.119396962985841]
中間的タスク伝達学習はモデル性能を大幅に向上させることができる。
12kのソース・ターゲット対を用いたNLPタスク転送性とタスク選択に関する最大の研究を行う。
事前の手法でESMを適用すると、それぞれ10と278の因子による実行時間とディスクスペースの使用量が減少する。
論文 参考訳(メタデータ) (2024-10-19T16:22:04Z) - DELIA: Diversity-Enhanced Learning for Instruction Adaptation in Large Language Models [11.77848664657788]
命令のチューニングは、モデルが新しい知識や能力を得るのではなく、特定のタスク形式に適合するプロセスであることを示す。
この制限は, タスク固有の特徴と異なる, 命令チューニング中に学習した偏りのある特徴に起因していると考えられる。
我々は,新たなデータ合成手法であるDELIAを用いて,命令チューニングにおけるバイアスのある特徴を理想的な特徴の近似に変換する。
論文 参考訳(メタデータ) (2024-08-19T17:56:06Z) - Language Models can Exploit Cross-Task In-context Learning for Data-Scarce Novel Tasks [22.66167973623777]
LLM(Large Language Models)は、ICL(In-context Learning)機能によってNLPを変換した。
本稿では,予め定義されたタスクのラベル付き例から新しいタスクまで,LLMが一般化できるかどうかを検討する。
LLaMA-2 7Bは107%, LLaMA-2 13Bは18.6%, GPT3.5は3.2%であった。
論文 参考訳(メタデータ) (2024-05-17T05:20:49Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Explaining the Effectiveness of Multi-Task Learning for Efficient
Knowledge Extraction from Spine MRI Reports [2.5953185061765884]
一つのマルチタスクモデルがタスク固有のモデルの性能にマッチすることを示す。
内科医による頚椎, 腰椎への注視所見について検討した。
論文 参考訳(メタデータ) (2022-05-06T01:51:19Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Grad2Task: Improved Few-shot Text Classification Using Gradients for
Task Representation [24.488427641442694]
本稿では,数ショットのテキスト分類のための条件付きニューラルプロセスに基づく新しいアプローチを提案する。
私たちのキーとなるアイデアは、ベースモデルからの勾配情報を使って各タスクを表現することです。
我々のアプローチは、従来の微調整、シーケンシャルトランスファーラーニング、そして最先端のメタラーニングアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-01-27T15:29:30Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation [80.18830380517753]
我々は新しいタスク非依存蒸留フレームワーク XtremeDistilTransformers を開発した。
本研究は, 蒸留における複数のソースタスク, 拡張資源, モデルアーキテクチャの伝達可能性について検討する。
論文 参考訳(メタデータ) (2021-06-08T17:49:33Z) - MetaKernel: Learning Variational Random Features with Limited Labels [120.90737681252594]
少数の注釈付きサンプルから学習し、新しいタスクでうまく一般化できるという根本的かつ困難な問題に、少数のショットラーニングが対処します。
マルチショット学習のためのランダムなフーリエ機能を備えたメタラーニングカーネルをMeta Kernelと呼びます。
論文 参考訳(メタデータ) (2021-05-08T21:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。