論文の概要: LIFT: Language-Interfaced Fine-Tuning for Non-Language Machine Learning
Tasks
- arxiv url: http://arxiv.org/abs/2206.06565v1
- Date: Tue, 14 Jun 2022 02:41:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 13:22:59.869452
- Title: LIFT: Language-Interfaced Fine-Tuning for Non-Language Machine Learning
Tasks
- Title(参考訳): LIFT:非言語機械学習タスクのための言語インタフェースファインチューニング
- Authors: Tuan Dinh, Yuchen Zeng, Ruisu Zhang, Ziqian Lin, Shashank Rajput,
Michael Gira, Jy-yong Sohn, Dimitris Papailiopoulos, Kangwook Lee
- Abstract要約: アーキテクチャの変更を一切行わずに、微調整された事前学習言語モデル(LM)は、様々な言語下流タスクを学習するための標準となっている。
モデルアーキテクチャや損失関数を変更することなく、非言語ダウンストリームタスクを解決するために、Language-Interfaced Fine-Tuning (LIFT)を提案する。
LIFTはモデルアーキテクチャや損失関数を一切変更せず、自然言語インターフェースに依存している。
- 参考スコア(独自算出の注目度): 22.274913349275817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning pretrained language models (LMs) without making any architectural
changes has become a norm for learning various language downstream tasks.
However, for non-language downstream tasks, a common practice is to employ
task-specific designs for input, output layers, and loss functions. For
instance, it is possible to fine-tune an LM into an MNIST classifier by
replacing the word embedding layer with an image patch embedding layer, the
word token output layer with a 10-way output layer, and the word prediction
loss with a 10-way classification loss, respectively. A natural question
arises: can LM fine-tuning solve non-language downstream tasks without changing
the model architecture or loss function? To answer this, we propose
Language-Interfaced Fine-Tuning (LIFT) and study its efficacy and limitations
by conducting an extensive empirical study on a suite of non-language
classification and regression tasks. LIFT does not make any changes to the
model architecture or loss function, and it solely relies on the natural
language interface, enabling "no-code machine learning with LMs." We find that
LIFT performs relatively well across a wide range of low-dimensional
classification and regression tasks, matching the performances of the best
baselines in many cases, especially for the classification tasks. We report the
experimental results on the fundamental properties of LIFT, including its
inductive bias, sample efficiency, ability to extrapolate, robustness to
outliers and label noise, and generalization. We also analyze a few
properties/techniques specific to LIFT, e.g., context-aware learning via
appropriate prompting, quantification of predictive uncertainty, and two-stage
fine-tuning. Our code is available at
https://github.com/UW-Madison-Lee-Lab/LanguageInterfacedFineTuning.
- Abstract(参考訳): アーキテクチャの変更を一切行わずに、微調整された事前学習言語モデル(LM)は、様々な言語下流タスクを学習するための標準となっている。
しかし、非言語下流タスクの場合、入出力層、損失関数のタスク固有の設計を採用するのが一般的である。
例えば、単語埋め込み層を画像パッチ埋め込み層、単語トークン出力層を10ウェイ出力層、単語予測損失を10ウェイ分類損失とすることにより、LMをMNIST分類器に微調整することができる。
LMの微調整は、モデルアーキテクチャや損失関数を変更することなく、非言語的な下流タスクを解決できるのか?
そこで本稿では,非言語分類と回帰タスクのスイートについて,広範囲にわたる実証的研究を行い,その有効性と限界について検討する。
LIFTはモデルアーキテクチャや損失関数を一切変更せず、自然言語インタフェースにのみ依存しており、「LMを使ったノーコード機械学習」を可能にしている。
LIFTは低次元の分類タスクや回帰タスクにおいて比較的よく機能し,特に分類タスクにおいて,最高のベースラインのパフォーマンスとよく一致していることがわかった。
本報告では, LIFTの基本特性, 誘導バイアス, 試料効率, 外挿能力, 外れ値やラベルノイズに対する堅牢性, 一般化などの実験結果について報告する。
また、LIFTに特有のいくつかの特性/技術、例えば、適切なプロンプト、予測の不確実性の定量化、および2段階の微調整を通してコンテキスト認識学習を分析する。
私たちのコードはhttps://github.com/UW-Madison-Lee-Lab/LanguageInterfacedFineTuningで利用可能です。
関連論文リスト
- Exploring Continual Fine-Tuning for Enhancing Language Ability in Large Language Model [14.92282077647913]
CFT(Continuous Fine-tuning)は、LLMを逐次微調整することで、モデルが下流のタスクに適応できるようにするプロセスである。
多言語データセット上で英語のみの細調整LDMを逐次微調整する2相CFTプロセスについて検討する。
第2相タスクと第1相タスクの類似性'''がLCMの適応性を決定することを観察する。
論文 参考訳(メタデータ) (2024-10-21T13:39:03Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer [50.40191599304911]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。
本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。
提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文 参考訳(メタデータ) (2024-01-09T21:09:07Z) - LaFFi: Leveraging Hybrid Natural Language Feedback for Fine-tuning
Language Models [14.087415157225715]
微調整大型言語モデル(LLM)は、特定の下流タスクに訓練されたモデルを適用する。
Supervised Fine-Tuning (SFT) は、LLMが望ましい回答を得るために訓練される一般的なアプローチである。
本稿では,LLMのための自然言語フィードバック (Natural Language Feedback for Finetuning LLMs, LaFFi) という,SFTの代替手法を提案する。
論文 参考訳(メタデータ) (2023-12-31T21:18:16Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - Meta-Learning Online Adaptation of Language Models [88.8947656843812]
大規模言語モデルは、そのパラメータにおける驚くほど広い世界の知識を符号化する。
しかし、静的言語モデルの知識は時代遅れになり、モデルの効果的な「シェルフライフ」が制限される。
論文 参考訳(メタデータ) (2023-05-24T11:56:20Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - Actuarial Applications of Natural Language Processing Using
Transformers: Case Studies for Using Text Features in an Actuarial Context [0.0]
このチュートリアルは、テキストデータをアクチュアリ分類と回帰タスクに組み込むことを実証する。
主な焦点はトランスフォーマーモデルを用いた手法である。
このケーススタディは、多言語設定と長い入力シーケンスに関連する課題に取り組む。
論文 参考訳(メタデータ) (2022-06-04T15:39:30Z) - Detecting Requirements Smells With Deep Learning: Experiences,
Challenges and Future Work [9.44316959798363]
本研究の目的は,手動でラベル付きデータセットを作成し,アンサンブル学習,深層学習(DL),単語埋め込みや伝達学習といった手法を用いて一般化問題を克服することで,従来の作業を改善することである。
現在の調査結果は、データセットが不均衡であり、どのクラスをもっと追加すべきかを示している。
論文 参考訳(メタデータ) (2021-08-06T12:45:15Z) - SML: a new Semantic Embedding Alignment Transformer for efficient
cross-lingual Natural Language Inference [71.57324258813674]
トランスフォーマーが質問応答、自然言語推論(NLI)、要約といった様々なタスクを精度良く実行できることは、現在この種のタスクに対処するための最良のパラダイムの1つとしてランク付けすることができる。
nliは、複雑な文を理解するための知識が必要であり、仮説と前提の関係を確立するため、これらのアーキテクチャをテストする最良のシナリオの1つである。
本稿では,自然言語推論のための多言語組込みを効率的にアライメントするための新しいアーキテクチャ siamese multilingual transformer を提案する。
論文 参考訳(メタデータ) (2021-03-17T13:23:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。