Fugu-MT 論文翻訳(概要): Are LLMs More Skeptical of Entertainment News?

論文の概要: Are LLMs More Skeptical of Entertainment News?

arxiv url: http://arxiv.org/abs/2605.01727v1
Date: Sun, 03 May 2026 05:55:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-05 20:33:49.907452
Title: Are LLMs More Skeptical of Entertainment News?
Title（参考訳）: LLMはエンターテイメントニュースに懐疑的か?
Authors: Huiqian Lai,
Abstract要約: 大規模言語モデル(LLM)は、ニュースの信頼性の自動評価にますます利用されている。ゼロショットLLMが、合法的なエンターテイメントニュースを、合法的なハードニュースよりもフェイクと誤分類する可能性が高いかどうかを検討する。 4つのフロンティアモデルにまたがる、明確だがモデル固有のジャンル非対称性を見いだす。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are increasingly used for automated news credibility assessment, yet it remains unclear whether they apply even-handed standards across journalistic genres. We examine whether zero-shot LLMs are more likely to misclassify legitimate entertainment news as fake than legitimate hard news, using a within-dataset design on GossipCop from FakeNewsNet. Across four frontier models, we find a clear but model-specific genre asymmetry: DeepSeek-V3.2 and GPT-5.2 show false-positive-rate gaps of 10.1 and 8.8 percentage points, respectively (both $p < .001$), whereas Claude Opus 4.6 and Gemini 3 Flash show no comparable difference. A style-swap experiment yields only limited and inconsistent changes, suggesting that the asymmetry is not reducible to stylistic register alone. Prompt-based mitigation is likewise possible but not generic: framing the model as an entertainment-news fact-checker reduces false positives for DeepSeek-V3.2 by about 50\% without detectable recall loss, but offers little improvement for GPT-5.2. Exploratory qualitative coding further suggests two recurring error patterns in sampled false positives: treating private-life claims as inherently unverifiable and discounting entertainment journalism as an epistemically weaker genre. Taken together, these findings show that aggregate performance metrics can obscure structured false positives within legitimate journalism. We argue that LLM-based credibility assessment may not only evaluate truth claims but also differentially recognize the legitimacy of journalistic genres, and that evaluation should therefore include genre-stratified false-positive analysis alongside overall accuracy.
Abstract（参考訳）: 大規模言語モデル (LLMs) は、ニュースの信頼性の自動評価にますます使われてきているが、ジャーナリストのジャンルに均等な標準を適用しているかどうかは不明だ。我々は,FakeNewsNet の GossipCop のデータベース内設計を用いて,ゼロショット LLM が正統なエンターテイメントニュースを正統なハードニュースと誤分類する可能性について検討した。 DeepSeek-V3.2 と GPT-5.2 はそれぞれ 10.1 と 8.8 の正の差を示し(どちらも$p < .001$)、Claude Opus 4.6 と Gemini 3 Flash は同等の差はない。スタイルスワップの実験は限定的かつ一貫性のない変化しか得られず、非対称性がスタイリスティックレジスタのみに還元できないことを示唆している。エンターテイメントの新しいファクトチェッカーとしてモデルをフレーミングすることで、検出可能なリコール損失なしにDeepSeek-V3.2の偽陽性を約50%削減するが、GPT-5.2ではほとんど改善されない。探索的質的コーディングはさらに、サンプル化された偽陽性の2つの繰り返しエラーパターンを示唆している: プライベートライフクレームは本質的に検証不可能で、エンターテイメント・ジャーナリズムをエピステマティックに弱いジャンルとしてディスカウントする。これらの結果から,正統なジャーナリズムにおいて,総合的な評価指標が偽陽性を曖昧にする可能性が示唆された。 LLMに基づく信頼性評価は、真実の主張を評価するだけでなく、ジャーナリストのジャンルの正当性を区別的に認識する可能性があり、従って、全体としての正確性とともに、ジャンル階層化された偽陽性分析を含めるべきである、と論じる。

関連論文リスト

Not Wrong, But Untrue: LLM Overconfidence in Document-Based Queries [2.853035319109148]
大型言語モデル(LLM)は、ニュースルームでますます使われている。幻覚の傾向は、ソーシング、帰属、正確性といった中核的なジャーナリストの慣行にリスクをもたらす。本稿では,ChatGPT,Gemini,NotebookLMの3つのツールについて検討する。
論文参考訳（メタデータ） (2025-09-29T20:55:43Z)
Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation [66.84286617519258]
大規模言語モデルは、データアノテーションやテキスト分析といった労働集約的なタスクの自動化を可能にすることで、社会科学の研究を変革している。このような変異は、系統的なバイアスやランダムなエラーを導入し、下流の分析に伝播し、タイプI(偽陽性)、タイプII(偽陰性)、タイプS(重み付け効果)、タイプM(誇張効果)のエラーを引き起こす。意図的なLSMハッキングは驚くほど単純であることがわかった。21の社会科学研究から37のデータアノテーションタスクを複製することで、ほんのわずかのプロンプトの言い回しで、事実上何であれ統計的に重要なものとして表現できることがわかりました。
論文参考訳（メタデータ） (2025-09-10T17:58:53Z)
Is LLMs Hallucination Usable? LLM-based Negative Reasoning for Fake News Detection [18.424817270460913]
本研究では, 自己強化型推論補正手法を提案する。それは、ニュースに対する一般的な合理的な推論と間違った理解(否定的な推論)の両方をもたらす。 3つの人気のある偽ニュースデータセットで検証した実験結果から,本手法の優位性が確認された。
論文参考訳（メタデータ） (2025-03-12T08:29:59Z)
Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文参考訳（メタデータ） (2024-06-20T06:42:08Z)
Missci: Reconstructing Fallacies in Misrepresented Science [84.32990746227385]
ソーシャルネットワーク上の健康関連の誤報は、意思決定の貧弱さと現実世界の危険につながる可能性がある。ミスシは、誤った推論のための新しい議論理論モデルである。大規模言語モデルの批判的推論能力をテストするためのデータセットとしてMissciを提案する。
論文参考訳（メタデータ） (2024-06-05T12:11:10Z)
How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。 GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文参考訳（メタデータ） (2024-02-20T18:31:27Z)
Fake News in Sheep's Clothing: Robust Fake News Detection Against LLM-Empowered Style Attacks [60.14025705964573]
SheepDogは、ニュースの正確性を決定する際に、スタイルよりもコンテンツを優先する、スタイルに反する偽ニュース検出ツールだ。 SheepDog はこのレジリエンスを,(1) LLM を利用したニュースリフレーミング,(2) 異なるスタイルに対応する記事のカスタマイズによる学習プロセスへのスタイル多様性の注入,(2) スタイルの異なるリフレーミング間で一貫した妥当性予測を保証するスタイル非依存のトレーニング,(3) LLM からコンテンツ中心のガイドラインを抽出して偽ニュースを抽出するコンテンツ中心の属性を通じて達成する。
論文参考訳（メタデータ） (2023-10-16T21:05:12Z)
Fake News Detectors are Biased against Texts Generated by Large Language Models [39.36284616311687]
フェイクニュースの拡散は、信頼を弱め、社会への脅威を訴える重要な課題として浮上している。本稿では,人間の書き起こしとLLM生成の両方の誤情報を含むシナリオにおいて,偽ニュース検知器を評価するための新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-09-15T18:04:40Z)
Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。 GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2022-10-17T14:52:39Z)
A Multi-Policy Framework for Deep Learning-Based Fake News Detection [0.31498833540989407]
フェイクニュース検出を自動化するフレームワークであるMPSC(Multi-Policy Statement Checker)を導入する。 MPSCは、深層学習技術を用いて、文自体とその関連するニュース記事を分析し、それが信頼できるか疑わしいかを予測する。
論文参考訳（メタデータ） (2022-06-01T21:25:21Z)
Explainable Tsetlin Machine framework for fake news detection with credibility score assessment [16.457778420360537]
本稿では,最近導入されたTsetlin Machine (TM) に基づく,新たな解釈可能な偽ニュース検出フレームワークを提案する。我々は、TMの接続節を用いて、真偽のニューステキストの語彙的および意味的特性をキャプチャする。評価のために、PolitiFactとGossipCopという2つの公開データセットで実験を行い、TMフレームワークが以前公開されたベースラインを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2021-05-19T13:18:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。