論文の概要: Token-free Models for Sarcasm Detection
- arxiv url: http://arxiv.org/abs/2505.01006v1
- Date: Fri, 02 May 2025 05:04:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.909935
- Title: Token-free Models for Sarcasm Detection
- Title(参考訳): サーカスム検出のためのトークンフリーモデル
- Authors: Sumit Mamtani, Maitreya Sonawane, Kanika Agarwal, Nishanth Sanjeev,
- Abstract要約: トークン化は、語彙ミスマッチや語彙外問題のような課題を導入します。
最近の研究によると、バイトや文字レベルで生テキストを直接操作するモデルは、これらの制限を緩和できる。
ByT5とCANINEの2つのトークンフリーモデルについて,両ソーシャルメディア領域における皮肉検出の課題について検討した。
- 参考スコア(独自算出の注目度): 0.05624791703748109
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenization is a foundational step in most natural language processing (NLP) pipelines, yet it introduces challenges such as vocabulary mismatch and out-of-vocabulary issues. Recent work has shown that models operating directly on raw text at the byte or character level can mitigate these limitations. In this paper, we evaluate two token-free models, ByT5 and CANINE, on the task of sarcasm detection in both social media (Twitter) and non-social media (news headlines) domains. We fine-tune and benchmark these models against token-based baselines and state-of-the-art approaches. Our results show that ByT5-small and CANINE outperform token-based counterparts and achieve new state-of-the-art performance, improving accuracy by 0.77% and 0.49% on the News Headlines and Twitter Sarcasm datasets, respectively. These findings underscore the potential of token-free models for robust NLP in noisy and informal domains such as social media.
- Abstract(参考訳): トークン化は、ほとんどの自然言語処理(NLP)パイプラインの基本的なステップであるが、語彙ミスマッチや語彙外問題といった課題も導入している。
最近の研究によると、バイトや文字レベルで生テキストを直接操作するモデルは、これらの制限を緩和できる。
本稿では,ByT5とCANINEの2つのトークンフリーモデルについて,ソーシャルメディア(Twitter)および非ソーシャルメディア(ニュースヘッドライン)ドメインにおける皮肉検出の課題について評価する。
トークンベースのベースラインと最先端のアプローチに対して、これらのモデルを微調整し、ベンチマークします。
以上の結果から,ByT5-smallとCANINEはトークンベースの競合よりも優れ,それぞれNews HeadlinesとTwitter Sarcasmデータセットで0.77%,0.49%の精度向上を実現している。
これらの知見は, 雑音やソーシャルメディアなどの非公式ドメインにおいて, 堅牢なNLPのためのトークンフリーモデルの可能性を強調した。
関連論文リスト
- Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Evaluating Named Entity Recognition: A comparative analysis of mono- and multilingual transformer models on a novel Brazilian corporate earnings call transcripts dataset [3.809702129519642]
ブラジルポルトガル語で事前訓練された2つのモデル (BERTimbau と PTT5) と2つの多言語モデル (mBERT と mT5) を同定する。
本研究では,ファイナンシャル・ネームド・エンティティ・認識(NER)タスク上での性能評価を行い,微調整と推論のための計算条件を決定することを目的とした。
論文 参考訳(メタデータ) (2024-03-18T19:53:56Z) - T5 meets Tybalt: Author Attribution in Early Modern English Drama Using
Large Language Models [4.2243058640527575]
大規模言語モデルは、多くのNLPドメインにおいてブレークスルーの可能性を示している。
現代英語ドラマにおけるテクスチャロメトリー、特に著者識別について検討する。
LLMは驚くほど短い文の著者を正確に予測できるが、特定の著者に自信を持ってテキストを誤帰させる傾向がある。
論文 参考訳(メタデータ) (2023-10-27T20:04:57Z) - Impact of Tokenization on Language Models: An Analysis for Turkish [2.4660652494309936]
我々は、OSCARコーパスのトルコ分割におけるRoBERTa事前訓練手順を用いて、トークン化器および事前訓練中規模言語モデルを訓練する。
統計的実験により, モルフォロジーレベルのトークン化器は, 事実上のトークン化器で高い性能を示した。
語彙サイズを増大させることで,デファクトトークン化よりも形態素およびワードレベルのトークン化器の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-04-19T12:01:46Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Artificial Text Detection via Examining the Topology of Attention Maps [58.46367297712477]
トポロジカルデータ分析(TDA)に基づく3種類の解釈可能なトポロジカル特徴を提案する。
BERTモデルから派生した特徴が3つの共通データセットにおいて、カウントベースとニューラルベースベースラインを最大10%上回っていることを実証的に示す。
特徴の探索解析は表面に対する感度と構文的性質を明らかにしている。
論文 参考訳(メタデータ) (2021-09-10T12:13:45Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language
Representation [12.005340904206697]
CANINEは、明示的なトークン化や語彙のない文字シーケンス上で直接動作する神経エンコーダです。
CanINEは、TyDi QAにおいて、比較可能なmBERTモデルを >= 1 F1 で上回っている。
論文 参考訳(メタデータ) (2021-03-11T18:57:44Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z) - Coreferential Reasoning Learning for Language Representation [88.14248323659267]
本稿では,コンテキスト内でコアファーデンシャル関係をキャプチャ可能な新しい言語表現モデルCorefBERTを提案する。
実験の結果,既存のベースラインモデルと比較して,CorefBERTは下流のNLPタスクにおいて一貫した大幅な改善を達成できることがわかった。
論文 参考訳(メタデータ) (2020-04-15T03:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。