論文の概要: Distance Metric Learning Loss Functions in Few-Shot Scenarios of
Supervised Language Models Fine-Tuning
- arxiv url: http://arxiv.org/abs/2211.15195v1
- Date: Mon, 28 Nov 2022 10:05:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 14:35:34.954498
- Title: Distance Metric Learning Loss Functions in Few-Shot Scenarios of
Supervised Language Models Fine-Tuning
- Title(参考訳): 教師付き言語モデルのFew-Shotシナリオにおける距離メトリック学習損失関数
- Authors: Witold Sosnowski, Karolina Seweryn, Anna Wr\'oblewska, Piotr Gawrysiak
- Abstract要約: DML損失関数は、数ショットのシナリオで、RoBERTa-largeモデルの下流分類タスクのパフォーマンスを向上させることができる。
ソフトトリプル損失を用いて微調整したモデルでは、標準のカテゴリーのクロスエントロピー損失関数を持つモデルよりも優れた結果が得られる。
- 参考スコア(独自算出の注目度): 1.0323063834827415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an analysis regarding an influence of the Distance Metric
Learning (DML) loss functions on the supervised fine-tuning of the language
models for classification tasks. We experimented with known datasets from
SentEval Transfer Tasks.
Our experiments show that applying the DML loss function can increase
performance on downstream classification tasks of RoBERTa-large models in
few-shot scenarios. Models fine-tuned with the use of SoftTriple loss can
achieve better results than models with a standard categorical cross-entropy
loss function by about 2.89 percentage points from 0.04 to 13.48 percentage
points depending on the training dataset. Additionally, we accomplished a
comprehensive analysis with explainability techniques to assess the models'
reliability and explain their results.
- Abstract(参考訳): 本稿では,分類タスクにおける言語モデルの教師付き微調整に対する距離メトリック学習(dml)損失関数の影響について分析する。
SentEval Transfer Tasksの既知のデータセットを実験した。
実験により,DML損失関数の適用により,ロバータ大規模モデルの下流分類タスクの性能が向上することが示された。
ソフトトリプル損失を微調整したモデルは、トレーニングデータセットに応じて0.04から13.48ポイントの約2.89ポイントの、標準カテゴリのクロスエントロピー損失関数を持つモデルよりも優れた結果が得られる。
さらに,モデルの信頼性を評価し,結果を説明するために,説明可能性技術を用いた総合的な分析を行った。
関連論文リスト
- Dissecting Misalignment of Multimodal Large Language Models via Influence Function [12.832792175138241]
コントラスト損失に対する拡張影響関数 (ECIF) を導入し, コントラスト損失に対する影響関数について検討した。
ECIFは正と負の両方のサンプルを考慮し、対照的な学習モデルの閉形式近似を提供する。
ECIFを基盤として,MLLMにおけるデータ評価,誤アライメント検出,誤予測トレースバックタスクなどの一連のアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-11-18T15:45:41Z) - Impact of Missing Values in Machine Learning: A Comprehensive Analysis [0.0]
本稿では,機械学習(ML)モデルにおける欠落値の影響について検討する。
分析では、バイアス付き推論、予測能力の低下、計算負荷の増大など、欠落した値による課題に焦点を当てた。
この研究は、欠落した値に対処する実践的な意味を説明するためにケーススタディと実例を用いている。
論文 参考訳(メタデータ) (2024-10-10T18:31:44Z) - Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with
Pre-trained Vision-Language Models [62.663113296987085]
クラス増分学習(class-incremental learning)は、モデルが限られたデータに基づいて漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
冗長特徴除去器(RFE)と空間ノイズ補償器(SNC)の2つの新しいコンポーネントを紹介する。
既存の3次元データセットの不均衡を考慮し、3次元FSCILモデルのより微妙な評価を提供する新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - Revisiting Distance Metric Learning for Few-Shot Natural Language
Classification [1.0323063834827415]
数ショットの学習設定では、特にプロキシベースのDML損失は、教師付き言語モデルの微調整と推論に肯定的な影響を及ぼす可能性がある。
CCEとProxyAnchor Lossの組み合わせで調整されたモデルは、平均すると、CCEのみが3.27ポイントの最高のパフォーマンスとパフォーマンスのモデルである。
論文 参考訳(メタデータ) (2022-11-28T10:19:31Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - RoBLEURT Submission for the WMT2021 Metrics Task [72.26898579202076]
本稿では,共有メトリクスタスクであるRoBLEURTについて紹介する。
我々のモデルは10対の英語言語対のうち8対でWMT 2020の人間のアノテーションと最先端の相関に達する。
論文 参考訳(メタデータ) (2022-04-28T08:49:40Z) - Deep Learning Models for Knowledge Tracing: Review and Empirical
Evaluation [2.423547527175807]
我々は,オープンで広く利用されているデータセットを用いた深層学習知識追跡(DLKT)モデルをレビューし,評価する。
評価されたDLKTモデルは、以前報告した結果の再現性と評価のために再実装されている。
論文 参考訳(メタデータ) (2021-12-30T14:19:27Z) - On the Effect of Dropping Layers of Pre-trained Transformer Models [35.25025837133909]
我々は、事前訓練されたモデルにレイヤをドロップする戦略を探求し、下流のGLUEタスクに対するプルーニングの効果を観察する。
BERT、RoBERTa、XLNetのモデルを40%まで、元のパフォーマンスの98%を維持できたのです。
実験の結果,下層が下流のタスク性能を維持する上で最も重要であること,(ii)パラフレーズ検出や文類似性などのタスクは,レイヤの降下に対してより堅牢であること,(iii)異なる目的関数を用いてトレーニングされたモデルが異なる学習パターンを示し,レイヤが低下すること,などの興味深い観察結果が得られた。
論文 参考訳(メタデータ) (2020-04-08T07:09:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。