論文の概要: LIFT: Language-Interfaced Fine-Tuning for Non-Language Machine Learning
Tasks
- arxiv url: http://arxiv.org/abs/2206.06565v1
- Date: Tue, 14 Jun 2022 02:41:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 13:22:59.869452
- Title: LIFT: Language-Interfaced Fine-Tuning for Non-Language Machine Learning
Tasks
- Title(参考訳): LIFT:非言語機械学習タスクのための言語インタフェースファインチューニング
- Authors: Tuan Dinh, Yuchen Zeng, Ruisu Zhang, Ziqian Lin, Shashank Rajput,
Michael Gira, Jy-yong Sohn, Dimitris Papailiopoulos, Kangwook Lee
- Abstract要約: アーキテクチャの変更を一切行わずに、微調整された事前学習言語モデル(LM)は、様々な言語下流タスクを学習するための標準となっている。
モデルアーキテクチャや損失関数を変更することなく、非言語ダウンストリームタスクを解決するために、Language-Interfaced Fine-Tuning (LIFT)を提案する。
LIFTはモデルアーキテクチャや損失関数を一切変更せず、自然言語インターフェースに依存している。
- 参考スコア(独自算出の注目度): 22.274913349275817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning pretrained language models (LMs) without making any architectural
changes has become a norm for learning various language downstream tasks.
However, for non-language downstream tasks, a common practice is to employ
task-specific designs for input, output layers, and loss functions. For
instance, it is possible to fine-tune an LM into an MNIST classifier by
replacing the word embedding layer with an image patch embedding layer, the
word token output layer with a 10-way output layer, and the word prediction
loss with a 10-way classification loss, respectively. A natural question
arises: can LM fine-tuning solve non-language downstream tasks without changing
the model architecture or loss function? To answer this, we propose
Language-Interfaced Fine-Tuning (LIFT) and study its efficacy and limitations
by conducting an extensive empirical study on a suite of non-language
classification and regression tasks. LIFT does not make any changes to the
model architecture or loss function, and it solely relies on the natural
language interface, enabling "no-code machine learning with LMs." We find that
LIFT performs relatively well across a wide range of low-dimensional
classification and regression tasks, matching the performances of the best
baselines in many cases, especially for the classification tasks. We report the
experimental results on the fundamental properties of LIFT, including its
inductive bias, sample efficiency, ability to extrapolate, robustness to
outliers and label noise, and generalization. We also analyze a few
properties/techniques specific to LIFT, e.g., context-aware learning via
appropriate prompting, quantification of predictive uncertainty, and two-stage
fine-tuning. Our code is available at
https://github.com/UW-Madison-Lee-Lab/LanguageInterfacedFineTuning.
- Abstract(参考訳): アーキテクチャの変更を一切行わずに、微調整された事前学習言語モデル(LM)は、様々な言語下流タスクを学習するための標準となっている。
しかし、非言語下流タスクの場合、入出力層、損失関数のタスク固有の設計を採用するのが一般的である。
例えば、単語埋め込み層を画像パッチ埋め込み層、単語トークン出力層を10ウェイ出力層、単語予測損失を10ウェイ分類損失とすることにより、LMをMNIST分類器に微調整することができる。
LMの微調整は、モデルアーキテクチャや損失関数を変更することなく、非言語的な下流タスクを解決できるのか?
そこで本稿では,非言語分類と回帰タスクのスイートについて,広範囲にわたる実証的研究を行い,その有効性と限界について検討する。
LIFTはモデルアーキテクチャや損失関数を一切変更せず、自然言語インタフェースにのみ依存しており、「LMを使ったノーコード機械学習」を可能にしている。
LIFTは低次元の分類タスクや回帰タスクにおいて比較的よく機能し,特に分類タスクにおいて,最高のベースラインのパフォーマンスとよく一致していることがわかった。
本報告では, LIFTの基本特性, 誘導バイアス, 試料効率, 外挿能力, 外れ値やラベルノイズに対する堅牢性, 一般化などの実験結果について報告する。
また、LIFTに特有のいくつかの特性/技術、例えば、適切なプロンプト、予測の不確実性の定量化、および2段階の微調整を通してコンテキスト認識学習を分析する。
私たちのコードはhttps://github.com/UW-Madison-Lee-Lab/LanguageInterfacedFineTuningで利用可能です。
関連論文リスト
- LaFFi: Leveraging Hybrid Natural Language Feedback for Fine-tuning
Language Models [14.087415157225715]
微調整大型言語モデル(LLM)は、特定の下流タスクに訓練されたモデルを適用する。
Supervised Fine-Tuning (SFT) は、LLMが望ましい回答を得るために訓練される一般的なアプローチである。
本稿では,LLMのための自然言語フィードバック (Natural Language Feedback for Finetuning LLMs, LaFFi) という,SFTの代替手法を提案する。
論文 参考訳(メタデータ) (2023-12-31T21:18:16Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - Meta-Learning Online Adaptation of Language Models [88.8947656843812]
大規模言語モデルは、そのパラメータにおける驚くほど広い世界の知識を符号化する。
しかし、静的言語モデルの知識は時代遅れになり、モデルの効果的な「シェルフライフ」が制限される。
論文 参考訳(メタデータ) (2023-05-24T11:56:20Z) - LeTI: Learning to Generate from Textual Interactions [59.79240825328176]
本稿では,テキストインタラクション(LeTI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックによって出力中のエラーをピンポイントし,説明する。
本研究は,自然言語命令に応答してコード片を生成するコード生成タスクに焦点をあてる。
LeTIは、LMの目的を用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいてモデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Hidden State Variability of Pretrained Language Models Can Guide
Computation Reduction for Transfer Learning [16.60284838029852]
我々は、どのレイヤのサブセットに適応すべきか、タスク固有の選択ができるかどうかを検討する。
本稿では,タスク固有のコーパスを与えられた隠れ状態の可変性に基づいて,階層を選択することを提案する。
論文 参考訳(メタデータ) (2022-10-18T17:58:43Z) - Actuarial Applications of Natural Language Processing Using
Transformers: Case Studies for Using Text Features in an Actuarial Context [0.0]
このチュートリアルは、テキストデータをアクチュアリ分類と回帰タスクに組み込むことを実証する。
主な焦点はトランスフォーマーモデルを用いた手法である。
このケーススタディは、多言語設定と長い入力シーケンスに関連する課題に取り組む。
論文 参考訳(メタデータ) (2022-06-04T15:39:30Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Detecting Requirements Smells With Deep Learning: Experiences,
Challenges and Future Work [9.44316959798363]
本研究の目的は,手動でラベル付きデータセットを作成し,アンサンブル学習,深層学習(DL),単語埋め込みや伝達学習といった手法を用いて一般化問題を克服することで,従来の作業を改善することである。
現在の調査結果は、データセットが不均衡であり、どのクラスをもっと追加すべきかを示している。
論文 参考訳(メタデータ) (2021-08-06T12:45:15Z) - SML: a new Semantic Embedding Alignment Transformer for efficient
cross-lingual Natural Language Inference [71.57324258813674]
トランスフォーマーが質問応答、自然言語推論(NLI)、要約といった様々なタスクを精度良く実行できることは、現在この種のタスクに対処するための最良のパラダイムの1つとしてランク付けすることができる。
nliは、複雑な文を理解するための知識が必要であり、仮説と前提の関係を確立するため、これらのアーキテクチャをテストする最良のシナリオの1つである。
本稿では,自然言語推論のための多言語組込みを効率的にアライメントするための新しいアーキテクチャ siamese multilingual transformer を提案する。
論文 参考訳(メタデータ) (2021-03-17T13:23:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。