論文の概要: Assessing how hyperparameters impact Large Language Models' sarcasm detection performance
- arxiv url: http://arxiv.org/abs/2504.06166v2
- Date: Tue, 15 Apr 2025 23:10:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:36:50.002221
- Title: Assessing how hyperparameters impact Large Language Models' sarcasm detection performance
- Title(参考訳): 大規模言語モデルの皮肉検出性能に及ぼすハイパーパラメータの影響評価
- Authors: Montgomery Gole, Andriy Miranskyy,
- Abstract要約: サルカズムの検出は人間と機械の両方にとって難しい。
本研究は,OpenAIのGPTとMetaのLlama-2モデルにおいて,モデル特性が皮肉検出に与える影響について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Sarcasm detection is challenging for both humans and machines. This work explores how model characteristics impact sarcasm detection in OpenAI's GPT, and Meta's Llama-2 models, given their strong natural language understanding, and popularity. We evaluate fine-tuned and zero-shot models across various sizes, releases, and hyperparameters. Experiments were conducted on the political and balanced (pol-bal) portion of the popular Self-Annotated Reddit Corpus (SARC2.0) sarcasm dataset. Fine-tuned performance improves monotonically with model size within a model family, while hyperparameter tuning also impacts performance. In the fine-tuning scenario, full precision Llama-2-13b achieves state-of-the-art accuracy and $F_1$-score, both measured at 0.83, comparable to average human performance. In the zero-shot setting, one GPT-4 model achieves competitive performance to prior attempts, yielding an accuracy of 0.70 and an $F_1$-score of 0.75. Furthermore, a model's performance may increase or decline with each release, highlighting the need to reassess performance after each release.
- Abstract(参考訳): サルカズムの検出は人間と機械の両方にとって難しい。
本研究は,OpenAI の GPT と Meta の Llama-2 モデルにおいて,モデル特性がサルカズム検出に与える影響について検討する。
各種サイズ, リリース, ハイパーパラメータの微調整およびゼロショットモデルの評価を行った。
人気の自己アノテーションReddit Corpus (SARC2.0) sarcasmデータセットの政治的およびバランスの取れた部分(pol-bal)で実験を行った。
微調整されたパフォーマンスはモデルファミリ内のモデルサイズで単調に向上する一方、ハイパーパラメータチューニングはパフォーマンスにも影響を及ぼす。
微調整のシナリオでは、Llama-2-13bは最先端の精度とF_1$スコアを達成し、どちらも平均的な人間のパフォーマンスに匹敵する0.03で測定される。
ゼロショット設定では、1つのGPT-4モデルが以前の試行と競合する性能を達成し、精度は0.70で、F_1$スコアは0.75である。
さらに、モデルの性能はリリース毎に増加または低下し、リリース後のパフォーマンスの再評価の必要性が強調される。
関連論文リスト
- Efficient Brain Tumor Classification with Lightweight CNN Architecture: A Novel Approach [0.0]
MRI画像を用いた脳腫瘍の分類は、早期かつ正確な検出が患者の予後に大きな影響を及ぼす医療診断において重要である。
近年のディープラーニング(DL)の進歩は将来性を示しているが、多くのモデルは精度と計算効率のバランスに苦慮している。
本稿では,分離可能な畳み込みと圧縮・励振ブロック(SEブロック)を統合した新しいモデルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-01T21:06:42Z) - Exploring Variability in Fine-Tuned Models for Text Classification with DistilBERT [0.9249657468385781]
本研究では, DistilBERT モデルを用いたテキスト分類のための微調整手法の評価を行った。
学習率,バッチサイズ,エポックといったハイパーパラメータが,精度,F1スコア,損失に与える影響について検討した。
論文 参考訳(メタデータ) (2024-12-31T03:16:15Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness [52.9493817508055]
我々は,モデルがゼロショットの逆方向のロバスト性を高めるために,事前訓練されたモデル誘導逆方向の微調整(PMG-AFT)を提案する。
私たちのアプローチは、平均8.72%のクリーンな精度を継続的に改善します。
論文 参考訳(メタデータ) (2024-01-09T04:33:03Z) - On Sarcasm Detection with OpenAI GPT-based Models [0.0]
サルカズム(Sarcasm)は、読者やリスナーが文脈や社会的手がかりを考慮し、意図した意味を解釈することを要求する皮肉の一形態である。
機械学習の分類モデルは、その社会的複雑さと矛盾する性質のために、長い間、皮肉を検出するのに難しかった。
本稿では, GPT-3, InstructGPT, GPT-3.5, GPT-4 などの生成事前学習型トランスフォーマ(GPT)モデルを用いて, 自然言語の皮肉を検出する手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T19:00:56Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - Adaptive LASSO estimation for functional hidden dynamic geostatistical
model [69.10717733870575]
関数型隠れ統計モデル(f-HD)のためのペナル化極大推定器(PMLE)に基づく新しいモデル選択アルゴリズムを提案する。
このアルゴリズムは反復最適化に基づいており、適応最小限の収縮・セレクタ演算子(GMSOLAS)ペナルティ関数を用いており、これは不給付のf-HD最大線量推定器によって得られる。
論文 参考訳(メタデータ) (2022-08-10T19:17:45Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Residual Energy-Based Models for End-to-End Speech Recognition [26.852537542649866]
自己回帰型ASRモデルを補完するために残留エネルギーベースモデル(R-EBM)を提案する。
100hr LibriSpeechデータセットの実験では、R-EBMはワードエラー率(WER)を8.2%/6.7%削減できる。
自己教師付き学習(wav2vec 2.0)を用いた最先端モデルでは、R-EBMはWERと信頼性推定性能の両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-03-25T22:08:00Z) - PSD2 Explainable AI Model for Credit Scoring [0.0]
本研究の目的は、信用リスクモデルの予測精度を向上させるための高度な分析手法の開発と試験である。
このプロジェクトは、銀行関連のデータベースに説明可能な機械学習モデルを適用することに焦点を当てている。
論文 参考訳(メタデータ) (2020-11-20T12:12:38Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。