論文の概要: SeLeRoSa: Sentence-Level Romanian Satire Detection Dataset
- arxiv url: http://arxiv.org/abs/2509.00893v1
- Date: Sun, 31 Aug 2025 15:12:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.448843
- Title: SeLeRoSa: Sentence-Level Romanian Satire Detection Dataset
- Title(参考訳): SeLeRoSa: Sentence-Level Romanian Satire Detection Dataset
- Authors: Răzvan-Alexandru Smădu, Andreea Iuga, Dumitru-Clementin Cercel, Florin Pop,
- Abstract要約: 本稿では,SeLeRoSaと呼ばれる,ルーマニアの風刺文検出のための最初の文レベルデータセットを紹介する。
データセットは、社会問題、IT、科学、映画など、さまざまな領域にまたがる13,873の注釈付き文で構成されている。
- 参考スコア(独自算出の注目度): 2.709981170021896
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Satire, irony, and sarcasm are techniques typically used to express humor and critique, rather than deceive; however, they can occasionally be mistaken for factual reporting, akin to fake news. These techniques can be applied at a more granular level, allowing satirical information to be incorporated into news articles. In this paper, we introduce the first sentence-level dataset for Romanian satire detection for news articles, called SeLeRoSa. The dataset comprises 13,873 manually annotated sentences spanning various domains, including social issues, IT, science, and movies. With the rise and recent progress of large language models (LLMs) in the natural language processing literature, LLMs have demonstrated enhanced capabilities to tackle various tasks in zero-shot settings. We evaluate multiple baseline models based on LLMs in both zero-shot and fine-tuning settings, as well as baseline transformer-based models. Our findings reveal the current limitations of these models in the sentence-level satire detection task, paving the way for new research directions.
- Abstract(参考訳): Satire、Irony、sarcasmは、典型的には欺くのではなく、ユーモアや批評を表現するために使われる技法であるが、偽ニュースと同様、事実報告と間違えることもある。
これらの技術はより粒度の細かいレベルで適用することができ、風刺情報をニュース記事に組み込むことができる。
本稿では,SeLeRoSaと呼ばれるニュース記事に対するルーマニア語風刺検出のための最初の文レベルデータセットについて紹介する。
データセットは、社会問題、IT、科学、映画など、さまざまな領域にまたがる13,873の注釈付き文で構成されている。
自然言語処理文学における大規模言語モデル(LLM)の台頭と最近の進歩により、LLMはゼロショット設定で様々なタスクに取り組む能力の強化を実証した。
ゼロショットおよび微調整設定とベースライン変換器モデルの両方において,LLMに基づく複数のベースラインモデルを評価する。
以上の結果から,文レベルの風刺検出タスクにおけるこれらのモデルの現在の限界が明らかとなり,新たな研究方向への道が開かれた。
関連論文リスト
- SaRoHead: Detecting Satire in a Multi-Domain Romanian News Headline Dataset [3.1208433686641666]
見出しでさえ、風刺的な主内容のトーンを反映しなければならない。
ルーマニア語に対する現在のアプローチは、メイン記事と見出しを組み合わせることでトーンを検出する。
論文 参考訳(メタデータ) (2025-04-10T10:03:29Z) - Make Satire Boring Again: Reducing Stylistic Bias of Satirical Corpus by Utilizing Generative LLMs [0.0]
本研究では, 学習データにおけるバイアスの低減に焦点をあてた, 風刺検出のためのデバイアス化手法を提案する。
以上の結果から,デバイアス法はトルコ語と英語の風刺・皮肉検出作業におけるモデルの堅牢性と一般化性を高めることが示唆された。
この研究は、分類、偏見、説明可能性に関するケーススタディを含む詳細な人間のアノテーションでトルコのサティリカルニュースデータセットをキュレートし、提示する。
論文 参考訳(メタデータ) (2024-12-12T12:57:55Z) - NewsEdits 2.0: Learning the Intentions Behind Updating News [74.84017890548259]
イベントが進むにつれて、ニュース記事は新しい情報で更新されることが多い。
本研究では,言語的特徴が事実流動性を示すことを仮定し,ニュース記事のテキストのみを用いて,どの事実が更新されるかを予測する。
論文 参考訳(メタデータ) (2024-11-27T23:35:23Z) - AI "News" Content Farms Are Easy to Make and Hard to Detect: A Case Study in Italian [18.410994374810105]
大規模言語モデル (LLMs) は、実際のニュース記事に伝達可能な合成テキストを生成するために「コンテンツファーム」モデル (CFMs) として使われることが多い。
Llama (v1) は、主に英語で訓練されており、イタリア語の母語話者が合成語として識別するのに苦労するニュースのようなテキストを生成するのに十分であることを示す。
論文 参考訳(メタデータ) (2024-06-17T22:19:00Z) - TransMI: A Framework to Create Strong Baselines from Multilingual Pretrained Language Models for Transliterated Data [50.40191599304911]
本稿では,トランスリテライト・マージ文字化 (Transliterate-Merge-literation, TransMI) という,シンプルだが効果的な枠組みを提案する。
TransMIは、既存のmPLMとそのトークン化ツールをトレーニングなしで利用することにより、共通のスクリプトに書き起こされるデータの強力なベースラインを作成することができる。
実験の結果,TransMIはmPLMの非翻訳データ処理能力を保ちつつ,翻訳データを効果的に処理し,スクリプト間のクロスリンガル転送を容易にすることを実証した。
論文 参考訳(メタデータ) (2024-05-16T09:08:09Z) - Fake News in Sheep's Clothing: Robust Fake News Detection Against LLM-Empowered Style Attacks [60.14025705964573]
SheepDogは、ニュースの正確性を決定する際に、スタイルよりもコンテンツを優先する、スタイルに反する偽ニュース検出ツールだ。
SheepDog はこのレジリエンスを,(1) LLM を利用したニュースリフレーミング,(2) 異なるスタイルに対応する記事のカスタマイズによる学習プロセスへのスタイル多様性の注入,(2) スタイルの異なるリフレーミング間で一貫した妥当性予測を保証するスタイル非依存のトレーニング,(3) LLM からコンテンツ中心のガイドラインを抽出して偽ニュースを抽出するコンテンツ中心の属性を通じて達成する。
論文 参考訳(メタデータ) (2023-10-16T21:05:12Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - NewsEdits: A News Article Revision Dataset and a Document-Level
Reasoning Challenge [122.37011526554403]
NewsEditsは、最初に公開されたニュースリビジョン履歴のデータセットである。
120万記事と、22以上の英語とフランス語の新聞ソースから460万バージョンを収録している。
論文 参考訳(メタデータ) (2022-06-14T18:47:13Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Satirical News Detection with Semantic Feature Extraction and
Game-theoretic Rough Sets [5.326582776477692]
本稿では,風刺的なニュースツイートを検出するための意味的特徴に基づくアプローチを提案する。
特徴は、句、実体、および主節と相対節の間の矛盾を探索することによって抽出される。
確率しきい値がゲーム平衡と繰り返し学習機構によって導出される風刺ニュースを検出するために,ゲーム理論ラフセットモデルを適用した。
論文 参考訳(メタデータ) (2020-04-08T03:22:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。