論文の概要: Seeing Candidates at Scale: Multimodal LLMs for Visual Political Communication on Instagram
- arxiv url: http://arxiv.org/abs/2604.19489v1
- Date: Tue, 21 Apr 2026 14:10:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.802578
- Title: Seeing Candidates at Scale: Multimodal LLMs for Visual Political Communication on Instagram
- Title(参考訳): Instagramにおける視覚的政治コミュニケーションのためのマルチモーダルLLM
- Authors: Michael Achmann-Denkler, Mario Haim, Christian Wolff,
- Abstract要約: 従来のコンピュータビジョンモデルとマルチモーダル大言語モデル(GPT-4o)を比較して、フロントランナー政治家を特定し、画像中の個人を数える。
GPT-4oは他のモデルよりも優れており、顔認識では0.89、ストーリーでは0.86のマクロF1スコアを達成した。
これらの知見は、政治的コミュニケーションにおける視覚的コンテンツ分析を拡大・洗練する高度なAIシステムの可能性を示している。
- 参考スコア(独自算出の注目度): 2.227742664602262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a computational case study that evaluates the capabilities of specialized machine learning models and emerging multimodal large language models for Visual Political Communication (VPC) analysis. Focusing on concentrated visibility in Instagram stories and posts during the 2021 German federal election campaign, we compare the performance of traditional computer vision models (FaceNet512, RetinaFace, Google Cloud Vision) with a multimodal large language model (GPT-4o) in identifying front-runner politicians and counting individuals in images. GPT-4o outperformed the other models, achieving a macro F1-score of 0.89 for face recognition and 0.86 for person counting in stories. These findings demonstrate the potential of advanced AI systems to scale and refine visual content analysis in political communication while highlighting methodological considerations for future research.
- Abstract(参考訳): 本稿では、視覚的政治コミュニケーション(VPC)分析のための特殊な機械学習モデルと新たな多モーダル大規模言語モデルの能力を評価するための計算ケーススタディを提案する。
2021年のドイツ連邦選挙キャンペーンにおけるInstagramのストーリーや投稿の集中的な可視性に注目して、従来のコンピュータビジョンモデル(FaceNet512、RetinaFace、Google Cloud Vision)のパフォーマンスと、フロントランナー政治家を特定し、画像中の個人をカウントするマルチモーダルな大規模言語モデル(GPT-4o)を比較した。
GPT-4oは他のモデルよりも優れており、顔認識では0.89、ストーリーでは0.86のマクロF1スコアを達成した。
これらの知見は、将来の研究の方法論的考察を強調しつつ、政治的コミュニケーションにおける視覚的コンテンツ分析を拡大・洗練する高度なAIシステムの可能性を示している。
関連論文リスト
- A Computational Approach to Visual Metonymy [5.812825068635779]
このような間接的な視覚的参照はビジュアル・メトニミー(Visual meonymy)と呼ばれ、視聴者に明示的な描写ではなく、関連する手がかりを通じてターゲット概念を復元するよう促す。
メトニックな視覚表現を生成するために,大規模言語モデルとテキスト・ツー・イメージモデルを活用する。
このフレームワークを用いて、2000の質問からなる最初のビジュアル・メトニミー・データセットであるViMETを構築し、マルチモーダル言語モデルにおける認知的推論能力を評価する。
論文 参考訳(メタデータ) (2026-01-25T05:36:03Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - Exploring Vision Language Models for Multimodal and Multilingual Stance Detection [9.079302402271491]
ソーシャルメディアのグローバルリーチは情報の拡散を増幅し、堅牢な自然言語処理タスクの必要性を強調している。
以前の研究では主にテキストのみの入力に焦点が当てられ、マルチモーダルなシナリオは比較的過小評価されている。
本稿では,マルチモーダルおよび多言語姿勢検出タスクにおけるVLM(Vision-Language Models)の評価を行う。
論文 参考訳(メタデータ) (2025-01-29T13:39:53Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [191.7830199016589]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning [15.296263261737026]
マルチイメージMIRBベンチマークを導入し、複数の画像を比較し、分析し、推論する視覚言語モデルの能力を評価する。
私たちのベンチマークには、知覚、視覚世界知識、推論、マルチホップ推論の4つのカテゴリが含まれています。
オープンソースVLMはシングルイメージタスクにおいてGPT-4Vに接近することを示したが、マルチイメージ推論タスクでは大きなギャップが残っている。
論文 参考訳(メタデータ) (2024-06-18T16:02:18Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Late Fusion with Triplet Margin Objective for Multimodal Ideology
Prediction and Analysis [9.85098393546375]
政治内容とテキストイメージのペアが与えられた場合、モデルが二分あるいは五点スケールのイデオロギーの傾きを予測するマルチモーダルイデオロギー予測のタスクを導入する。
我々は、ニュース記事の詳細な分析を行い、政治的スペクトルにおける画像の内容と使用法の違いを明らかにする。
我々の最高のパフォーマンスモデルであるレイトフュージョンアーキテクチャは、マルチモーダルコンテンツよりも三重対物で事前訓練され、最先端のテキストのみのモデルよりも約4%性能が向上します。
論文 参考訳(メタデータ) (2022-11-04T05:45:26Z) - Multimodal Representation Learning With Text and Images [2.998895355715139]
本研究は,テキストと画像データの同時表現学習において,マルチモーダルAIと行列分解技術を活用する。
学習表現は下流の分類と回帰タスクを用いて評価される。
論文 参考訳(メタデータ) (2022-04-30T03:25:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。