論文の概要: Historical Ink: Exploring Large Language Models for Irony Detection in 19th-Century Spanish
- arxiv url: http://arxiv.org/abs/2503.22585v1
- Date: Fri, 28 Mar 2025 16:33:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:32:18.646015
- Title: Historical Ink: Exploring Large Language Models for Irony Detection in 19th-Century Spanish
- Title(参考訳): 歴史的インク:19世紀スペインの皮肉検出のための大規模言語モデル
- Authors: Kevin Cohen, Laura Manrique-Gómez, Rubén Manrique,
- Abstract要約: 本研究では,19世紀のラテンアメリカの新聞において,大規模言語モデル(LLM)を用いたデータセットの強化と皮肉検出の改善について検討した。
鉄の微妙なニュアンス特性を捉えるために,BERTモデルとGPT-4oモデルの有効性を評価するために2つの戦略が採用された。
- 参考スコア(独自算出の注目度): 0.06554326244334868
- License:
- Abstract: This study explores the use of large language models (LLMs) to enhance datasets and improve irony detection in 19th-century Latin American newspapers. Two strategies were employed to evaluate the efficacy of BERT and GPT-4o models in capturing the subtle nuances nature of irony, through both multi-class and binary classification tasks. First, we implemented dataset enhancements focused on enriching emotional and contextual cues; however, these showed limited impact on historical language analysis. The second strategy, a semi-automated annotation process, effectively addressed class imbalance and augmented the dataset with high-quality annotations. Despite the challenges posed by the complexity of irony, this work contributes to the advancement of sentiment analysis through two key contributions: introducing a new historical Spanish dataset tagged for sentiment analysis and irony detection, and proposing a semi-automated annotation methodology where human expertise is crucial for refining LLMs results, enriched by incorporating historical and cultural contexts as core features.
- Abstract(参考訳): 本研究では,19世紀のラテンアメリカの新聞において,大規模言語モデル(LLM)を用いたデータセットの強化と皮肉検出の改善について検討した。
BERTモデルとGPT-4oモデルの有効性を評価するために, 複数クラスおよび二分分類タスクを用いて, 皮肉の微妙なニュアンス特性を把握した。
まず,感情的・文脈的手がかりの充実に焦点をあてたデータセットの強化を行ったが,これらは歴史的言語分析に限られた影響を示した。
第2の戦略、半自動アノテーションプロセスは、クラス不均衡を効果的に対処し、データセットを高品質なアノテーションで拡張する。
皮肉の複雑さによって引き起こされる課題にもかかわらず、この研究は感情分析の進歩に寄与する: 感情分析と皮肉検出のためにタグ付けされた新しい歴史的スペインデータセットの導入、そして人間の専門知識がLSMの結果を洗練するために不可欠である半自動化された方法論の提案、そして歴史的および文化的な文脈を中核的な特徴として組み込むことによって強化される。
関連論文リスト
- Evaluation of End-to-End Continuous Spanish Lipreading in Different Data Conditions [0.0]
本稿では,スペイン語の自動連続唇読解法における顕著な進歩について述べる。
異なる性質の2つのコーパスで実験を行い、最先端の結果を得た。
厳密な誤り解析を行い、自動システムの学習に影響を与える様々な要因について検討した。
論文 参考訳(メタデータ) (2025-02-01T15:48:20Z) - DEUCE: Dual-diversity Enhancement and Uncertainty-awareness for Cold-start Active Learning [54.35107462768146]
コールドスタートアクティブラーニング(CSAL)は、手動アノテーションのためのラベルなしデータセットから貴重なインスタンスを選択する。
既存のCSAL手法は、弱いクラスと強い代表例を見落とし、バイアス学習をもたらす。
本稿ではCSALのための新しい二変量拡張および不確実性認識フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-01T04:00:03Z) - Harnessing the Intrinsic Knowledge of Pretrained Language Models for Challenging Text Classification Settings [5.257719744958367]
この論文は、事前学習された言語モデル(PLM)の本質的な知識を活用することによって、テキスト分類における3つの挑戦的な設定を探求する。
本研究では, PLMの文脈表現に基づく特徴量を利用したモデルを構築し, 人間の精度に匹敵する, あるいは超越する性能を実現する。
最後に、実効的な実演を選択することで、大規模言語モデルの文脈内学習プロンプトに対する感受性に取り組む。
論文 参考訳(メタデータ) (2024-08-28T09:07:30Z) - Multilingual Event Extraction from Historical Newspaper Adverts [42.987470570997694]
本稿では,歴史文献の新たな領域からのイベント抽出の課題について述べる。
我々は,近代植民地時代の新聞広告からなる,英語,フランス語,オランダ語に新しい多言語データセットを導入する。
注記データが少ない場合でも,問題を抽出的QAタスクとして定式化することにより,驚くほど優れた結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-18T12:40:41Z) - Transfer Learning for Low-Resource Sentiment Analysis [1.2891210250935146]
本稿では,中央クルド人の感情分析のためのデータセットの収集とアノテーションについて述べる。
このタスクのために、古典的な機械学習とニューラルネットワークベースのテクニックをいくつか探求する。
論文 参考訳(メタデータ) (2023-04-10T16:44:44Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Automated Speech Scoring System Under The Lens: Evaluating and
interpreting the linguistic cues for language proficiency [26.70127591966917]
従来の機械学習モデルを用いて、音声認識タスクを分類と回帰問題の両方として定式化する。
まず,5つのカテゴリー(頻度,発音,内容,文法,語彙,音響)で言語学の特徴を抽出し,応答を学習する。
比較すると,回帰に基づくモデルでは,分類法と同等かそれ以上の性能があることがわかった。
論文 参考訳(メタデータ) (2021-11-30T06:28:58Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Dynamic Data Selection and Weighting for Iterative Back-Translation [116.14378571769045]
本稿では,反復的バックトランスレーションモデルのためのカリキュラム学習戦略を提案する。
我々は、ドメイン適応、低リソース、高リソースMT設定に関するモデルを評価する。
実験の結果,提案手法は競争基準値よりも最大1.8 BLEU点の改善を達成できた。
論文 参考訳(メタデータ) (2020-04-07T19:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。