論文の概要: I'll believe it when I see it: Images increase misinformation sharing in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.13302v1
- Date: Mon, 19 May 2025 16:20:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.727326
- Title: I'll believe it when I see it: Images increase misinformation sharing in Vision-Language Models
- Title(参考訳): 画像は視覚・言語モデルにおける誤情報共有を増大させる
- Authors: Alice Plebe, Timothy Douglas, Diana Riazi, R. Maria del Rio-Chanona,
- Abstract要約: 本稿では,画像がニュースコンテンツを再共有する視覚言語モデルの妥当性にどのように影響するかについて検討する。
モデルファミリーでの実験では、画像の存在が真のニュースでは4.8%、偽ニュースでは15.0%増加していることが明らかになった。
ダークトライアドの特徴は偽ニュースの再共有を増幅する一方、共和党のプロフィールは正確さの感度を低下させる。
- 参考スコア(独自算出の注目度): 1.5186937600119894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly integrated into news recommendation systems, raising concerns about their role in spreading misinformation. In humans, visual content is known to boost credibility and shareability of information, yet its effect on vision-language models (VLMs) remains unclear. We present the first study examining how images influence VLMs' propensity to reshare news content, whether this effect varies across model families, and how persona conditioning and content attributes modulate this behavior. To support this analysis, we introduce two methodological contributions: a jailbreaking-inspired prompting strategy that elicits resharing decisions from VLMs while simulating users with antisocial traits and political alignments; and a multimodal dataset of fact-checked political news from PolitiFact, paired with corresponding images and ground-truth veracity labels. Experiments across model families reveal that image presence increases resharing rates by 4.8% for true news and 15.0% for false news. Persona conditioning further modulates this effect: Dark Triad traits amplify resharing of false news, whereas Republican-aligned profiles exhibit reduced veracity sensitivity. Of all the tested models, only Claude-3-Haiku demonstrates robustness to visual misinformation. These findings highlight emerging risks in multimodal model behavior and motivate the development of tailored evaluation frameworks and mitigation strategies for personalized AI systems. Code and dataset are available at: https://github.com/3lis/misinfo_vlm
- Abstract(参考訳): 大規模言語モデルはニュースレコメンデーションシステムにますます統合され、偽情報の拡散における彼らの役割に対する懸念が高まっている。
人間では、視覚コンテンツは情報の信頼性と共有性を高めることが知られているが、視覚言語モデル(VLM)への影響はいまだ不明である。
本稿では,VLMがニューズコンテンツにどのような影響を与えるか,その効果がモデルファミリによって異なるか,そしてペルソナコンディショニングやコンテンツ属性がどのような振る舞いを調節するか,などについて検討する。
この分析を支援するために,VLMからのリシェア決定を誘発し,反社会的特徴や政治的アライメントでユーザをシミュレートするJailbreaking-inspired prompting Strategy,PolititiFactによる事実チェックされた政治ニュースのマルチモーダルデータセット,および対応する画像と地味の真正性ラベルを組み合わせた多モードデータセット,の2つの方法論的コントリビューションを紹介した。
モデルファミリーでの実験では、画像の存在が真のニュースでは4.8%、偽ニュースでは15.0%増加していることが明らかになった。
ダークトライアドの特徴は偽ニュースの再共有を増幅する一方、共和党のプロフィールは正確さの感度を低下させる。
テストされた全てのモデルの中で、Claude-3-Haikuだけが視覚的誤報に対する堅牢性を示している。
これらの知見は、マルチモーダルモデル行動の新たなリスクを強調し、パーソナライズされたAIシステムのためのカスタマイズされた評価フレームワークと緩和戦略の開発を動機付けている。
コードとデータセットは、https://github.com/3lis/misinfo_vlm.comで入手できる。
関連論文リスト
- Large Language Model-Informed Feature Discovery Improves Prediction and Interpretation of Credibility Perceptions of Visual Content [0.24999074238880484]
本稿では,Large Language Model (LLM) を用いた特徴発見フレームワークを導入する。
対象のプロンプトを用いて解釈可能な特徴を抽出・定量化し、それらを機械学習モデルに統合して信頼性予測を改善する。
提案手法は,R2においてゼロショットGPTに基づく予測を13%向上させ,情報具体性や画像フォーマットなどの重要な特徴を明らかにした。
論文 参考訳(メタデータ) (2025-04-15T05:11:40Z) - Fact-or-Fair: A Checklist for Behavioral Testing of AI Models on Fairness-Related Queries [85.909363478929]
本研究では,権威ある情報源から収集した19の実世界統計に着目した。
主観的および主観的な問合せからなるチェックリストを作成し,大規模言語モデルの振る舞いを解析する。
事実性と公平性を評価するためのメトリクスを提案し、これらの2つの側面の間に固有のトレードオフを正式に証明する。
論文 参考訳(メタデータ) (2025-02-09T10:54:11Z) - A Self-Learning Multimodal Approach for Fake News Detection [35.98977478616019]
偽ニュース分類のための自己学習型マルチモーダルモデルを提案する。
このモデルは、ラベル付きデータを必要としない機能抽出のための堅牢な手法であるコントラスト学習を利用する。
公開データセットを用いた実験結果から,提案モデルがいくつかの最先端の分類手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-12-08T07:41:44Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - SEPSIS: I Can Catch Your Lies -- A New Paradigm for Deception Detection [9.20397189600732]
本研究は, 心理学のレンズを通して, 騙しの問題を探究するものである。
そこで本研究では,NLP技術を利用した偽造検出のための新しいフレームワークを提案する。
我々は、微調整言語モデルのデータレスマージを利用した、新しいマルチタスク学習パイプラインを提案する。
論文 参考訳(メタデータ) (2023-12-01T02:13:25Z) - Fact-checking information from large language models can decrease headline discernment [6.814801748069122]
本稿では,人気大言語モデルが生成した事実確認情報が,政治ニュースの見出しの信条や共有意図に与える影響について検討する。
この情報は、見出しの正確さを識別したり、正確なニュースを共有したりする参加者の能力を大幅に向上させるものではない。
我々の発見は、AIアプリケーションから生じる潜在的な害の重大な原因を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-08-21T15:47:37Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Like Article, Like Audience: Enforcing Multimodal Correlations for
Disinformation Detection [20.394457328537975]
ユーザ生成コンテンツとユーザ共有コンテンツの相関を利用して、オンラインニュース記事の偽情報を検出する。
偽情報検出のためのマルチモーダル学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-08-31T14:50:16Z) - Machine Learning Explanations to Prevent Overtrust in Fake News
Detection [64.46876057393703]
本研究では、ニュースレビュープラットフォームに組み込んだ説明可能なAIアシスタントが、フェイクニュースの拡散と戦う効果について検討する。
我々は、ニュースレビューと共有インターフェースを設計し、ニュース記事のデータセットを作成し、4つの解釈可能なフェイクニュース検出アルゴリズムを訓練する。
説明可能なAIシステムについてより深く理解するために、説明プロセスにおけるユーザエンゲージメント、メンタルモデル、信頼、パフォーマンス対策の相互作用について議論する。
論文 参考訳(メタデータ) (2020-07-24T05:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。