論文の概要: Make Satire Boring Again: Reducing Stylistic Bias of Satirical Corpus by Utilizing Generative LLMs
- arxiv url: http://arxiv.org/abs/2412.09247v1
- Date: Thu, 12 Dec 2024 12:57:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:33:33.338144
- Title: Make Satire Boring Again: Reducing Stylistic Bias of Satirical Corpus by Utilizing Generative LLMs
- Title(参考訳): Satire Boring を再び行う:ジェネレーティブ LLM を利用したサティリカルコーパスのスティリスティックバイアス低減
- Authors: Asli Umay Ozturk, Recep Firat Cekinel, Asli Umay Ozturk,
- Abstract要約: 本研究では, 学習データにおけるバイアスの低減に焦点をあてた, 風刺検出のためのデバイアス化手法を提案する。
以上の結果から,デバイアス法はトルコ語と英語の風刺・皮肉検出作業におけるモデルの堅牢性と一般化性を高めることが示唆された。
この研究は、分類、偏見、説明可能性に関するケーススタディを含む詳細な人間のアノテーションでトルコのサティリカルニュースデータセットをキュレートし、提示する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Satire detection is essential for accurately extracting opinions from textual data and combating misinformation online. However, the lack of diverse corpora for satire leads to the problem of stylistic bias which impacts the models' detection performances. This study proposes a debiasing approach for satire detection, focusing on reducing biases in training data by utilizing generative large language models. The approach is evaluated in both cross-domain (irony detection) and cross-lingual (English) settings. Results show that the debiasing method enhances the robustness and generalizability of the models for satire and irony detection tasks in Turkish and English. However, its impact on causal language models, such as Llama-3.1, is limited. Additionally, this work curates and presents the Turkish Satirical News Dataset with detailed human annotations, with case studies on classification, debiasing, and explainability.
- Abstract(参考訳): テキストデータから正確な意見を抽出し、誤報と戦うためには、サファイア検出が不可欠である。
しかし、風刺のための多彩なコーパスの欠如は、モデルの検出性能に影響を及ぼすスタイリスティックなバイアスの問題につながる。
本研究では, 学習データにおけるバイアスの低減に焦点をあてた, 風刺検出のためのデバイアス化手法を提案する。
このアプローチは、クロスドメイン(匿名検出)とクロスランガル(英語)の両方の設定で評価される。
以上の結果から,デバイアス法はトルコ語と英語の風刺・皮肉検出作業におけるモデルの堅牢性と一般化性を高めることが示唆された。
しかし、Llama-3.1のような因果言語モデルへの影響は限られている。
さらに、この研究は、分類、偏見、説明可能性に関するケーススタディを含む詳細な人間のアノテーションでトルコの風刺ニュースデータセットをキュレートし、提示する。
関連論文リスト
- Religious Bias Landscape in Language and Text-to-Image Models: Analysis, Detection, and Debiasing Strategies [16.177734242454193]
言語モデルの普及は、言語モデル固有のバイアスに対する批判的な検査の必要性を強調している。
本研究では,言語モデルとテキスト・ツー・イメージ生成モデルの両方において,宗教的バイアスを系統的に研究する。
論文 参考訳(メタデータ) (2025-01-14T21:10:08Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Challenges in Measuring Bias via Open-Ended Language Generation [1.5552869983952944]
我々は、プロンプトセット、メトリクス、自動ツール、サンプリング戦略の特定の選択がバイアス結果にどのように影響するかを分析する。
オープンな言語生成におけるバイアスを報告するためのレコメンデーションを提供する。
論文 参考訳(メタデータ) (2022-05-23T19:57:15Z) - The World of an Octopus: How Reporting Bias Influences a Language
Model's Perception of Color [73.70233477125781]
報告バイアスがテキストのみのトレーニングに悪影響を及ぼし、本質的に制限されていることを示す。
次に、マルチモーダルモデルが視覚的トレーニングを利用してこれらの効果を緩和できることを実証する。
論文 参考訳(メタデータ) (2021-10-15T16:28:17Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Self-Diagnosis and Self-Debiasing: A Proposal for Reducing Corpus-Based
Bias in NLP [10.936043362876651]
問題のあるテキストを生成するモデルの確率を減少させる復号アルゴリズムを提案する。
このアプローチは必ずしもバイアス付きテキストを生成する言語モデルの問題を取り除くものではないが、この方向への重要なステップであると考えている。
論文 参考訳(メタデータ) (2021-02-28T11:07:37Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Satirical News Detection with Semantic Feature Extraction and
Game-theoretic Rough Sets [5.326582776477692]
本稿では,風刺的なニュースツイートを検出するための意味的特徴に基づくアプローチを提案する。
特徴は、句、実体、および主節と相対節の間の矛盾を探索することによって抽出される。
確率しきい値がゲーム平衡と繰り返し学習機構によって導出される風刺ニュースを検出するために,ゲーム理論ラフセットモデルを適用した。
論文 参考訳(メタデータ) (2020-04-08T03:22:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。