論文の概要: Breaking Free Transformer Models: Task-specific Context Attribution
Promises Improved Generalizability Without Fine-tuning Pre-trained LLMs
- arxiv url: http://arxiv.org/abs/2401.16638v1
- Date: Tue, 30 Jan 2024 00:23:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 16:41:15.079468
- Title: Breaking Free Transformer Models: Task-specific Context Attribution
Promises Improved Generalizability Without Fine-tuning Pre-trained LLMs
- Title(参考訳): 自由変圧器モデルの破断:微調整済みLLMを使わずに一般化性の向上を約束するタスク特化コンテキスト属性
- Authors: Stepan Tytarenko, Mohammad Ruhul Amin
- Abstract要約: 本稿では,一般化性を維持し,下流タスクの性能を向上させるフレームワークを提案する。
タスク固有の概念演算子を用いて任意の変換器モデルからテキスト表現を線形変換すると、潜在概念空間に投影されることを示す。
HateXplain,IMDB Review,Social Media Attributionsという3つのデータセットの実験結果から,提案モデルが精度と一般化性に優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 1.5138606851862884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large pre-trained language models (LLMs) on particular datasets
is a commonly employed strategy in Natural Language Processing (NLP)
classification tasks. However, this approach usually results in a loss of
models generalizability. In this paper, we present a framework that allows for
maintaining generalizability, and enhances the performance on the downstream
task by utilizing task-specific context attribution. We show that a linear
transformation of the text representation from any transformer model using the
task-specific concept operator results in a projection onto the latent concept
space, referred to as context attribution in this paper. The specific concept
operator is optimized during the supervised learning stage via novel loss
functions. The proposed framework demonstrates that context attribution of the
text representation for each task objective can improve the capacity of the
discriminator function and thus achieve better performance for the
classification task. Experimental results on three datasets, namely HateXplain,
IMDB reviews, and Social Media Attributions, illustrate that the proposed model
attains superior accuracy and generalizability. Specifically, for the
non-fine-tuned BERT on the HateXplain dataset, we observe 8% improvement in
accuracy and 10% improvement in F1-score. Whereas for the IMDB dataset,
fine-tuned state-of-the-art XLNet is outperformed by 1% for both accuracy and
F1-score. Furthermore, in an out-of-domain cross-dataset test, DistilBERT
fine-tuned on the IMDB dataset in conjunction with the proposed model improves
the F1-score on the HateXplain dataset by 7%. For the Social Media Attributions
dataset of YouTube comments, we observe 5.2% increase in F1-metric. The
proposed framework is implemented with PyTorch and provided open-source on
GitHub.
- Abstract(参考訳): 特定のデータセット上で訓練済みの大規模言語モデル(LLM)は、自然言語処理(NLP)分類タスクにおいて一般的に使用される戦略である。
しかし、このアプローチは通常、モデルの一般化可能性を失う。
本稿では,タスク固有のコンテキスト属性を利用して,一般化性を維持し,下流タスクの性能を向上させるフレームワークを提案する。
本稿では,タスク固有概念演算子を用いた任意の変換器モデルからのテキスト表現の線形変換が,文脈属性と呼ばれる潜在概念空間への投影をもたらすことを示す。
特定の概念演算子は、新規な損失関数を介して教師付き学習段階で最適化される。
提案フレームワークは,各タスク目的に対するテキスト表現の文脈帰属が識別関数の能力を向上させることにより,分類タスクの性能を向上させることを実証する。
hatexplain, imdb reviews, social media attributionの3つのデータセットにおける実験結果から,提案モデルが精度と一般化性に優れることが示された。
具体的には、HateXplainデータセット上の非微調整BERTに対して、精度8%の改善とF1スコア10%の改善を観察する。
IMDBデータセットとは対照的に、微調整された最先端のXLNetは、精度とF1スコアの両方で1%向上している。
さらに、ドメイン外のクロスデータセットテストでは、提案モデルと合わせてIMDBデータセットに微調整を行い、HateXplainデータセットのF1スコアを7%改善する。
youtubeコメントのソーシャルメディアアトリビューションデータセットでは、f1メトリクスの5.2%の増加が観察されている。
提案されたフレームワークはPyTorchで実装され、GitHubでオープンソースとして提供されている。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。
本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。
データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文 参考訳(メタデータ) (2024-06-17T04:35:17Z) - TAIA: Large Language Models are Out-of-Distribution Data Learners [30.57872423927015]
効果的な推論時間介入手法を提案する:全てのパラメータを訓練するが、注意のみで推論する(trainallInfAttn)。
trainallInfAttnは、ほとんどのシナリオで完全に調整されたモデルとベースモデルの両方と比較して、優れた改善を実現している。
trainallInfAttnのデータのミスマッチに対する高い耐性は、jailbreakのチューニングに耐性を持ち、一般的なデータを使った特別なタスクを強化する。
論文 参考訳(メタデータ) (2024-05-30T15:57:19Z) - Next Generation Loss Function for Image Classification [0.0]
我々は、遺伝的プログラミング(GP)アプローチを利用して、クロスエントロピー(CE)損失を含むよく知られた損失関数に挑戦する。
NGL(Next Generation Loss)と呼ばれる1つの関数は、テストされたすべてのデータセットで、同じか、より優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-04-19T15:26:36Z) - Learning to Generate Instruction Tuning Datasets for Zero-Shot Task Adaptation [9.574486521686323]
Bonitoは、未注釈のテキストをタスク固有のトレーニングデータセットに変換する条件付きタスク生成のモデルである。
そこで,本研究では,自己教師付きベースライン上での事前学習モデルと指導モデルの平均性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2024-02-28T13:54:57Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Improving Zero and Few-Shot Abstractive Summarization with Intermediate
Fine-tuning and Data Augmentation [101.26235068460551]
大規模テキストコーパス上での自己教師対象による事前学習モデルは、英語テキスト要約タスクにおける最先端のパフォーマンスを達成する。
モデルは通常、数十万のデータポイントで微調整されるが、これは新しいニッチなドメインに要約を適用する際に、実現不可能な要件である。
我々は、教師なし、データセット固有の方法で要約のための訓練済みモデルを微調整するための、WikiTransferと呼ばれる新しい一般化可能な手法を紹介した。
論文 参考訳(メタデータ) (2020-10-24T08:36:49Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。