論文の概要: Large Language Model-Informed Feature Discovery Improves Prediction and Interpretation of Credibility Perceptions of Visual Content
- arxiv url: http://arxiv.org/abs/2504.10878v1
- Date: Tue, 15 Apr 2025 05:11:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:12:11.357394
- Title: Large Language Model-Informed Feature Discovery Improves Prediction and Interpretation of Credibility Perceptions of Visual Content
- Title(参考訳): 大規模言語モデルインフォームド特徴発見は、視覚内容の可視性知覚の予測と解釈を改善する
- Authors: Yilang Peng, Sijia Qian, Yingdan Lu, Cuihua Shen,
- Abstract要約: 本稿では,Large Language Model (LLM) を用いた特徴発見フレームワークを導入する。
対象のプロンプトを用いて解釈可能な特徴を抽出・定量化し、それらを機械学習モデルに統合して信頼性予測を改善する。
提案手法は,R2においてゼロショットGPTに基づく予測を13%向上させ,情報具体性や画像フォーマットなどの重要な特徴を明らかにした。
- 参考スコア(独自算出の注目度): 0.24999074238880484
- License:
- Abstract: In today's visually dominated social media landscape, predicting the perceived credibility of visual content and understanding what drives human judgment are crucial for countering misinformation. However, these tasks are challenging due to the diversity and richness of visual features. We introduce a Large Language Model (LLM)-informed feature discovery framework that leverages multimodal LLMs, such as GPT-4o, to evaluate content credibility and explain its reasoning. We extract and quantify interpretable features using targeted prompts and integrate them into machine learning models to improve credibility predictions. We tested this approach on 4,191 visual social media posts across eight topics in science, health, and politics, using credibility ratings from 5,355 crowdsourced workers. Our method outperformed zero-shot GPT-based predictions by 13 percent in R2, and revealed key features like information concreteness and image format. We discuss the implications for misinformation mitigation, visual credibility, and the role of LLMs in social science.
- Abstract(参考訳): 今日の視覚的に支配されるソーシャルメディアの状況では、視覚的コンテンツの信頼性を予測し、人間の判断を導くものを理解することが、誤った情報に対抗するために不可欠である。
しかし、これらのタスクは視覚的特徴の多様性と豊かさのために困難である。
本稿では,GPT-4o などのマルチモーダル LLM を利用した大規模言語モデル (LLM) による特徴発見フレームワークを導入し,コンテンツの信頼性を評価し,その理由を説明する。
対象のプロンプトを用いて解釈可能な特徴を抽出・定量化し、それらを機械学習モデルに統合して信頼性予測を改善する。
我々は,5,355人のクラウドソース労働者の信頼度評価を用いて,科学,健康,政治の8分野にわたる4,191件のソーシャルメディア投稿に対して,このアプローチを検証した。
提案手法は,R2においてゼロショットGPTに基づく予測を13%向上させ,情報具体性や画像フォーマットなどの重要な特徴を明らかにした。
社会科学における誤情報緩和,視覚的信頼性,LLMの役割について論じる。
関連論文リスト
- VLM$^2$-Bench: A Closer Look at How Well VLMs Implicitly Link Explicit Matching Visual Cues [34.95077625513563]
VLM$2$-Benchは、視覚言語モデルがマッチングキューを視覚的にリンクできるかどうかを評価するために設計されたベンチマークである。
我々は、モデルが視覚的手がかりをリンクする能力において重要な課題を特定し、GPT-4oでさえ人間より34.80%遅れている重要なパフォーマンスギャップを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-02-17T17:57:50Z) - Unveiling Visual Perception in Language Models: An Attention Head Analysis Approach [33.20992355312175]
MLLM(Multimodal Large Language Models)の最近の進歩は、視覚的理解の著しい進歩を示している。
本稿では,4つのモデルファミリーと4つのモデルスケールにまたがる系統的な調査により,この問題に対処することを目的とする。
分析の結果,これらの注意ヘッドの挙動,注意重みの分布,および入力中の視覚的トークンへの集中との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2024-12-24T02:31:24Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Putting GPT-4o to the Sword: A Comprehensive Evaluation of Language, Vision, Speech, and Multimodal Proficiency [3.161954199291541]
本研究は, GPT-4oの言語, 視覚, 音声, マルチモーダル能力を包括的に評価する。
GPT-4oは、言語と推論能力において、複数のドメインにわたる高い精度と効率を示す。
モデルは可変性を示し、複雑であいまいな入力を扱う際の制限に直面している。
論文 参考訳(メタデータ) (2024-06-19T19:00:21Z) - Exploring the Potential of the Large Language Models (LLMs) in Identifying Misleading News Headlines [2.0330684186105805]
本研究では、誤解を招くニュースの見出しと誤解を招くニュースの見出しを識別する上で、LLM(Large Language Models)の有効性について検討する。
解析の結果,ChatGPT-4の精度は良好であった。
論文 参考訳(メタデータ) (2024-05-06T04:06:45Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。
SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2024-02-20T14:02:45Z) - GPT-4V(ision) as A Social Media Analysis Engine [77.23394183063238]
本稿では,GPT-4Vのソーシャルマルチメディア分析能力について考察する。
我々は、感情分析、ヘイトスピーチ検出、フェイクニュース識別、人口推定、政治的イデオロギー検出を含む5つの代表的なタスクを選択する。
GPT-4Vはこれらのタスクにおいて顕著な効果を示し、画像とテキストのペアの理解、文脈と文化の認識、広義のコモンセンス知識などの強みを示している。
論文 参考訳(メタデータ) (2023-11-13T18:36:50Z) - A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual Question Answering [53.70661720114377]
マルチモーダル・大型モデル(MLM)は視覚的理解の分野を著しく進歩させ、視覚的質問応答(VQA)の領域で顕著な能力を提供している
しかし、真の課題は知識集約型VQAタスクの領域にある。
1) モデルが視覚的手がかりを理解し、一般的な知識にどのように結びつくかを評価するコモンセンス知識、2) 画像から特定の知識を推論し、提示する際のモデルのスキルをテストする微粒な世界知識。
論文 参考訳(メタデータ) (2023-11-13T18:22:32Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。