論文の概要: Probing Multimodal Large Language Models on Cognitive Biases in Chinese Short-Video Misinformation
- arxiv url: http://arxiv.org/abs/2601.06600v1
- Date: Sat, 10 Jan 2026 15:43:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.892946
- Title: Probing Multimodal Large Language Models on Cognitive Biases in Chinese Short-Video Misinformation
- Title(参考訳): 中国短ビデオ誤報における認知バイアスに基づく多モーダル大言語モデルの提案
- Authors: Jen-tse Huang, Chang Chen, Shiyang Lai, Wenxuan Wang, Michelle R. Kaufman, Mark Dredze,
- Abstract要約: 短いビデオプラットフォームは誤情報の主要なチャネルとなり、虚偽の主張は視覚実験や社会的手がかりを活用する。
4つの健康ドメインにまたがる200本の短いビデオからなる高品質で手動の注釈付きデータセットを用いた総合的な評価フレームワークを提案する。
このデータセットは、3つの偽りのパターン、実験的なエラー、論理的誤認、および製造されたクレームに対するきめ細かいアノテーションを提供する。
- 参考スコア(独自算出の注目度): 34.28647703173823
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Short-video platforms have become major channels for misinformation, where deceptive claims frequently leverage visual experiments and social cues. While Multimodal Large Language Models (MLLMs) have demonstrated impressive reasoning capabilities, their robustness against misinformation entangled with cognitive biases remains under-explored. In this paper, we introduce a comprehensive evaluation framework using a high-quality, manually annotated dataset of 200 short videos spanning four health domains. This dataset provides fine-grained annotations for three deceptive patterns, experimental errors, logical fallacies, and fabricated claims, each verified by evidence such as national standards and academic literature. We evaluate eight frontier MLLMs across five modality settings. Experimental results demonstrate that Gemini-2.5-Pro achieves the highest performance in the multimodal setting with a belief score of 71.5/100, while o3 performs the worst at 35.2. Furthermore, we investigate social cues that induce false beliefs in videos and find that models are susceptible to biases like authoritative channel IDs.
- Abstract(参考訳): 短いビデオプラットフォームは誤情報の主要なチャネルとなり、誤認は視覚実験や社会的手がかりを頻繁に活用している。
MLLM(Multimodal Large Language Models)は、印象的な推論能力を示しているが、認知バイアスに絡み合った誤情報に対する頑健さは、まだ解明されていない。
本稿では、4つの健康領域にまたがる200本の短いビデオからなる高品質手動注釈付きデータセットを用いた総合評価フレームワークを提案する。
このデータセットは、3つの偽りのパターン、実験的な誤り、論理的誤認、製造されたクレームの詳細なアノテーションを提供し、それぞれが国家標準や学術文献などの証拠によって検証されている。
5つのモード設定で8つのフロンティアMLLMを評価した。
実験結果から,Gemini-2.5-Proは信念スコア71.5/100のマルチモーダルセッティングで最高の性能を示し,o3は35.2で最悪の性能を示した。
さらに,ビデオにおける虚偽の信念を誘発する社会的手がかりについて検討し,信頼チャネルIDのようなバイアスの影響を受けやすいモデルを見出した。
関連論文リスト
- Addressing Stereotypes in Large Language Models: A Critical Examination and Mitigation [0.0]
自然言語処理(NLP)の発展に伴い,近年,大規模言語モデル (LLM) が普及している。
本研究は, 生成人工知能(AI)の増大に伴い, LLMのバイアスに対処する必要があることを調査し, 強調する。
我々は, StereoSet や CrowSPairs などのバイアス特異的なベンチマークを用いて,BERT や GPT 3.5,ADA など,様々な世代モデルにおける様々なバイアスの存在を評価する。
論文 参考訳(メタデータ) (2025-11-18T05:43:34Z) - Video-LevelGauge: Investigating Contextual Positional Bias in Large Video Language Models [51.67019924750931]
Video-LevelGaugeは、大規模ビデオ言語モデル(LVLM)における位置バイアスを評価するために設計されたベンチマークである。
我々は、標準化されたプローブとカスタマイズされたコンテキスト設定を採用し、コンテキスト長、プローブ位置、コンテキストタイプを柔軟に制御できる。
ベンチマークでは、複数のタイプにまたがる438の動画を手動でキュレートし、117の高品質なマルチチョイスの質問と120のオープンエンドの質問を得た。
論文 参考訳(メタデータ) (2025-08-27T07:58:16Z) - When Scale Meets Diversity: Evaluating Language Models on Fine-Grained Multilingual Claim Verification [14.187153195380668]
大規模言語モデルは、多くのNLPタスクにまたがる顕著な能力を持つが、ニュアンス付き分類スキームを用いた多言語クレーム検証の有効性は、まだ検討されていない。
X-Factデータセットでは、7つの異なる精度カテゴリを持つ25言語にまたがる5つの最先端言語モデルを評価する。
驚くべきことに、XLM-R は全試験 LLM よりかなり優れており、57.7% のマクロF1 を 16.9% の最高の LLM 性能と比較すると達成している。
論文 参考訳(メタデータ) (2025-07-28T10:49:04Z) - Debunk and Infer: Multimodal Fake News Detection via Diffusion-Generated Evidence and LLM Reasoning [34.75988591416631]
フェイクニュース検出のためのDebunk-and-Inferフレームワークを提案する。
DIFNDは条件付き拡散モデルの生成強度と多モーダル大言語モデルの協調推論能力を統合する。
FakeSVとFVCデータセットの実験は、DIFNDが既存のアプローチを上回るだけでなく、信頼できる決定を下していることを示している。
論文 参考訳(メタデータ) (2025-06-11T09:08:43Z) - WorldQA: Multimodal World Knowledge in Videos through Long-Chain Reasoning [49.72868038180909]
マルチモーダル世界モデルの境界を押し上げるために設計されたビデオデータセットであるWorldQAを紹介する。
質問の定式化に不可欠な5つの世界知識を同定する。
我々は、専門家の知識をコヒーレントな推論チェーンに合成するためのエージェントであるWorldRetrieverを紹介する。
論文 参考訳(メタデータ) (2024-05-06T08:42:34Z) - Multimodal Large Language Models to Support Real-World Fact-Checking [80.41047725487645]
MLLM(Multimodal large language model)は、膨大な情報処理において人間を支援する能力を持つ。
MLLMはすでにファクトチェックツールとして使用されていますが、その能力や制限については検討中です。
本稿では,現実のファクトチェックを容易にするために,現在のマルチモーダルモデルの能力を体系的に評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-06T11:32:41Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。