論文の概要: Revisiting Distance Metric Learning for Few-Shot Natural Language
Classification
- arxiv url: http://arxiv.org/abs/2211.15202v1
- Date: Mon, 28 Nov 2022 10:19:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 14:35:21.419363
- Title: Revisiting Distance Metric Learning for Few-Shot Natural Language
Classification
- Title(参考訳): 数発自然言語分類のための距離メトリック学習の再検討
- Authors: Witold Sosnowski, Anna Wr\'oblewska, Karolina Seweryn, Piotr Gawrysiak
- Abstract要約: 数ショットの学習設定では、特にプロキシベースのDML損失は、教師付き言語モデルの微調整と推論に肯定的な影響を及ぼす可能性がある。
CCEとProxyAnchor Lossの組み合わせで調整されたモデルは、平均すると、CCEのみが3.27ポイントの最高のパフォーマンスとパフォーマンスのモデルである。
- 参考スコア(独自算出の注目度): 1.0323063834827415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distance Metric Learning (DML) has attracted much attention in image
processing in recent years. This paper analyzes its impact on supervised
fine-tuning language models for Natural Language Processing (NLP)
classification tasks under few-shot learning settings. We investigated several
DML loss functions in training RoBERTa language models on known SentEval
Transfer Tasks datasets. We also analyzed the possibility of using proxy-based
DML losses during model inference.
Our systematic experiments have shown that under few-shot learning settings,
particularly proxy-based DML losses can positively affect the fine-tuning and
inference of a supervised language model. Models tuned with a combination of
CCE (categorical cross-entropy loss) and ProxyAnchor Loss have, on average, the
best performance and outperform models with only CCE by about 3.27 percentage
points -- up to 10.38 percentage points depending on the training dataset.
- Abstract(参考訳): 距離メトリック学習(DML)は近年,画像処理において注目されている。
本稿では,自然言語処理(nlp)分類タスクにおける教師付き微調整言語モデルへの影響を分析した。
我々は、既知のSentEval Transfer Tasksデータセット上でRoBERTa言語モデルを訓練する際のDML損失関数について検討した。
また、モデル推論中にプロキシベースのDML損失を利用する可能性についても分析した。
体系的な実験により,少数の学習条件,特にプロキシに基づくdml損失は,教師付き言語モデルの微調整と推論に正の影響を与えうることが示された。
CCE(カテゴリー的クロスエントロピー損失)とProxyAnchor Lossの組み合わせで調整されたモデルは、トレーニングデータセットによって最大10.38ポイントまで、平均してCCEのみで最高のパフォーマンスとパフォーマンスのモデルである。
関連論文リスト
- Dissecting Misalignment of Multimodal Large Language Models via Influence Function [12.832792175138241]
コントラスト損失に対する拡張影響関数 (ECIF) を導入し, コントラスト損失に対する影響関数について検討した。
ECIFは正と負の両方のサンプルを考慮し、対照的な学習モデルの閉形式近似を提供する。
ECIFを基盤として,MLLMにおけるデータ評価,誤アライメント検出,誤予測トレースバックタスクなどの一連のアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-11-18T15:45:41Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。
我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。
我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Leveraging Task-Specific Knowledge from LLM for Semi-Supervised 3D Medical Image Segmentation [9.778201925906913]
LLM-SegNetは大規模言語モデル(LLM)を利用してタスク固有の知識を協調学習フレームワークに統合する。
一般公開されているLeft Atrium、Pancreas-CT、Brats-19データセットの実験は、最先端技術と比較してLLM-SegNetの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-07-06T14:23:16Z) - Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud
Semantic Segmentation via Decoupling Optimization [64.36097398869774]
半教師付き学習(SSL)は大規模3Dシーン理解のための活発な研究課題である。
既存のSSLベースのメソッドは、クラス不均衡とポイントクラウドデータのロングテール分布による厳しいトレーニングバイアスに悩まされている。
本稿では,特徴表現学習と分類器を別の最適化方法で切り離してバイアス決定境界を効果的にシフトする,新しいデカップリング最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-13T04:16:40Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with
Pre-trained Vision-Language Models [62.663113296987085]
クラス増分学習(class-incremental learning)は、モデルが限られたデータに基づいて漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
冗長特徴除去器(RFE)と空間ノイズ補償器(SNC)の2つの新しいコンポーネントを紹介する。
既存の3次元データセットの不均衡を考慮し、3次元FSCILモデルのより微妙な評価を提供する新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:44:19Z) - Evaluating the Capability of Large-scale Language Models on Chinese
Grammatical Error Correction Task [10.597024796304016]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な能力を示している。
本報告では,中国語の文法的誤り訂正タスクにおける大規模言語モデルの性能について検討する。
論文 参考訳(メタデータ) (2023-07-08T13:10:59Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Distance Metric Learning Loss Functions in Few-Shot Scenarios of
Supervised Language Models Fine-Tuning [1.0323063834827415]
DML損失関数は、数ショットのシナリオで、RoBERTa-largeモデルの下流分類タスクのパフォーマンスを向上させることができる。
ソフトトリプル損失を用いて微調整したモデルでは、標準のカテゴリーのクロスエントロピー損失関数を持つモデルよりも優れた結果が得られる。
論文 参考訳(メタデータ) (2022-11-28T10:05:58Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。