論文の概要: Grounded Satirical Generation with RAG
- arxiv url: http://arxiv.org/abs/2605.10853v1
- Date: Mon, 11 May 2026 17:00:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:51.018486
- Title: Grounded Satirical Generation with RAG
- Title(参考訳): RAGによる接地サーチリカルジェネレーション
- Authors: Oona Itkonen, Yuxin Su, Linyao Du, Ona De Gibert,
- Abstract要約: 我々は、文脈によって強く形作られたユーモアの形式である風刺に焦点を当てている。
本稿では,現在のニュースを検索・拡張・生成(RAG)として利用する,接地型風刺生成のための新しいパイプラインを提案する。
以上の結果から, 生成した定義はユーモアよりも政治的であると考えられた。
- 参考スコア(独自算出の注目度): 2.9522837368396915
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Humor generation remains challenging task for Large Language Models (LLMs), due to their subjective nature. We focus on satire, a form of humor strongly shaped by context. In this work, we present a novel pipeline for grounded satire generation that uses Retrieval-Augmented Generation (RAG) over current news to produce satirical dictionary definitions in the Finnish context. We also introduce a new task-specific evaluation framework and annotate 100 generated definitions with six human annotators, enabling analysis across multiple experimental conditions, including cultural background, source-word type, and the presence or absence of RAG. Our results show that the generated definitions are perceived as more political than humorous. Both topic-based word selection and RAG improve the political relevance of the outputs, but neither yields clear gains in humor generation. In addition, our LLM-as-a-judge evaluation of five state-of-the-art models indicates that LLMs correlate well with human judgments on political relevance, but perform poorly on humor. We release our code and annotated dataset to support further research on grounded satire generation and evaluation.
- Abstract(参考訳): 大規模言語モデル (LLM) の主観的な性質から, 省力化は依然として困難な課題である。
我々は、文脈によって強く形作られたユーモアの形式である風刺に焦点を当てている。
本研究では,フィンランドの文脈における風刺辞書定義を生成するために,現在のニュースに対してRAG(Retrieval-Augmented Generation)を用いた接地風刺生成のための新しいパイプラインを提案する。
また、新たなタスク固有の評価フレームワークを導入し、6つのアノテータを用いた100個のアノテート定義を導入し、文化的背景、ソースワードタイプ、RAGの有無など、複数の実験条件における分析を可能にした。
以上の結果から, 生成した定義はユーモアよりも政治的であると考えられた。
トピックベースの単語選択とRAGはどちらも、出力の政治的関連性を改善するが、ユーモア生成において明確な利益は得られない。
さらに,5つの最先端モデルを用いたLLM-as-a-judge評価の結果,LLMは政治的関連性についての人間の判断とよく相関するが,ユーモアに悪影響を及ぼすことが示唆された。
我々はコードと注釈付きデータセットを公開し、接地された風刺の生成と評価に関するさらなる研究を支援する。
関連論文リスト
- Engagement Undermines Safety: How Stereotypes and Toxicity Shape Humor in Language Models [55.98686105081078]
大規模言語モデルは、クリエイティブな執筆やエンゲージメントコンテンツにますます使われ、アウトプットに対する安全性の懸念が高まっている。
本研究は, 現代のLLMパイプラインにおいて, ユーモア, 立体特異性, 毒性を測定することによって, 有害な内容とどのように結合するかを評価する。
論文 参考訳(メタデータ) (2025-10-21T09:28:09Z) - SeLeRoSa: Sentence-Level Romanian Satire Detection Dataset [2.709981170021896]
本稿では,SeLeRoSaと呼ばれる,ルーマニアの風刺文検出のための最初の文レベルデータセットを紹介する。
データセットは、社会問題、IT、科学、映画など、さまざまな領域にまたがる13,873の注釈付き文で構成されている。
論文 参考訳(メタデータ) (2025-08-31T15:12:51Z) - Make Satire Boring Again: Reducing Stylistic Bias of Satirical Corpus by Utilizing Generative LLMs [0.0]
本研究では, 学習データにおけるバイアスの低減に焦点をあてた, 風刺検出のためのデバイアス化手法を提案する。
以上の結果から,デバイアス法はトルコ語と英語の風刺・皮肉検出作業におけるモデルの堅牢性と一般化性を高めることが示唆された。
この研究は、分類、偏見、説明可能性に関するケーススタディを含む詳細な人間のアノテーションでトルコのサティリカルニュースデータセットをキュレートし、提示する。
論文 参考訳(メタデータ) (2024-12-12T12:57:55Z) - Multilingual Retrieval Augmented Generation for Culturally-Sensitive Tasks: A Benchmark for Cross-lingual Robustness [30.00463676754559]
検索したウィキペディア文書と組み合わせた領土紛争のデータセットであるBordIRLinesを49言語で紹介する。
我々は多言語検索のための複数のモードを定式化することにより、このRAG設定の言語間ロバスト性を評価する。
実験の結果,多様な言語からの視点を取り入れることで,ロバスト性の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-10-02T01:59:07Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Natural Language Decompositions of Implicit Content Enable Better Text Representations [52.992875653864076]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - Survey of Hallucination in Natural Language Generation [69.9926849848132]
近年,シーケンス間深層学習技術の発展により,自然言語生成(NLG)は指数関数的に向上している。
深層学習に基づく生成は意図しないテキストを幻覚させる傾向があるため、システム性能は低下する。
この調査は、NLGにおける幻覚テキストの課題に取り組む研究者の協力活動を促進するのに役立つ。
論文 参考訳(メタデータ) (2022-02-08T03:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。