論文の概要: From Codebooks to VLMs: Evaluating Automated Visual Discourse Analysis for Climate Change on Social Media
- arxiv url: http://arxiv.org/abs/2604.21786v1
- Date: Thu, 23 Apr 2026 15:44:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.694188
- Title: From Codebooks to VLMs: Evaluating Automated Visual Discourse Analysis for Climate Change on Social Media
- Title(参考訳): コードブックからVLMへ:ソーシャルメディアにおける気候変化のための自動視覚談話分析の評価
- Authors: Katharina Prasse, Steffen Jung, Isaac Bravo, Stefanie Walter, Patrick Knab, Christian Bartelt, Margret Keuper,
- Abstract要約: 我々は,ソーシャルメディアの談話分析にコンピュータビジョン手法をどのように利用できるかを分析し,そのような研究を促進することを目的としている。
この分析には、アプリケーションベースの分類設計、モデル選択、迅速なエンジニアリング、検証が含まれる。
我々は、X(旧Twitter)の2つのデータセットに対して、6つの即発的な視覚言語モデルと15のゼロショットCLIPのようなモデルをベンチマークした。
- 参考スコア(独自算出の注目度): 22.261744577934554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social media platforms have become primary arenas for climate communication, generating millions of images and posts that - if systematically analysed - can reveal which communication strategies mobilise public concern and which fall flat. We aim to facilitate such research by analysing how computer vision methods can be used for social media discourse analysis. This analysis includes application-based taxonomy design, model selection, prompt engineering, and validation. We benchmark six promptable vision-language models and 15 zero-shot CLIP-like models on two datasets from X (formerly Twitter) - a 1,038-image expert-annotated set and a larger corpus of over 1.2 million images, with 50,000 labels manually validated - spanning five annotation dimensions: animal content, climate change consequences, climate action, image setting, and image type. Among the models benchmarked, Gemini-3.1-flash-lite outperforms all others across all super-categories and both datasets, while the gap to open-weight models of moderate size remains relatively small. Beyond instance-level metrics, we advocate for distributional evaluation: VLM predictions can reliably recover population level trends even when per-image accuracy is moderate, making them a viable starting point for discourse analysis at scale. We find that chain-of-thought reasoning reduces rather than improves performance, and that annotation dimension specific prompt design improves performance. We release tweet IDs and labels along with our code at https://github.com/KathPra/Codebooks2VLMs.git.
- Abstract(参考訳): ソーシャルメディアのプラットフォームは、何百万もの画像やポストを生成し、体系的に分析すれば、どのコミュニケーション戦略が公共の関心を動員し、どれが平らになるかを明らかにすることができる。
我々は,ソーシャルメディアの談話分析にコンピュータビジョン手法をどのように利用できるかを分析し,そのような研究を促進することを目的としている。
この分析には、アプリケーションベースの分類設計、モデル選択、迅速なエンジニアリング、検証が含まれる。
X(旧Twitter)の2つのデータセット — 1,038イメージのエキスパートアノテートセットと120万以上のイメージのより大きなコーパス — から得られた6つのプロンプト可能な視覚言語モデルと15のゼロショットCLIPライクなモデルをベンチマークします。
ベンチマークされたモデルの中で、Gemini-3.1-flash-liteはすべてのスーパーカテゴリと両方のデータセットで他よりも優れており、一方、中程度のオープンウェイトモデルとのギャップは比較的小さいままである。
VLM予測は、画像毎の精度が適度である場合でも、人口レベルの傾向を確実に回復することができ、大規模な談話分析の出発点となる。
チェーン・オブ・ソート推論は性能を改善するよりも低下し、アノテーションの次元に特有なプロンプト設計により性能が向上することがわかった。
私たちはTweet IDとラベルをhttps://github.com/KathPra/Codebooks2VLMs.gitで公開しています。
関連論文リスト
- Benchmarking Vision-Language and Multimodal Large Language Models in Zero-shot and Few-shot Scenarios: A study on Christian Iconography [0.764671395172401]
本研究では,マルチモーダル大言語モデル (LLMs) とビジョン言語モデル (VLMs) のクリスチャン・イコノグラフィーのシングルラベル分類における機能評価を行った。
論文 参考訳(メタデータ) (2025-09-23T09:23:31Z) - Text2Vis: A Challenging and Diverse Benchmark for Generating Multimodal Visualizations from Text [30.74255946385862]
テキスト・ツー・ビジュアル化モデルを評価するためのベンチマークであるText2Visを紹介する。
1,985のサンプルからなり、それぞれにデータテーブル、自然言語クエリ、短い回答、視覚化コード、注釈付きチャートがある。
これは大きなパフォーマンスギャップを明らかにし、重要な課題を強調し、将来の進歩に対する洞察を提供する。
論文 参考訳(メタデータ) (2025-07-26T14:59:04Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z) - Unsupervised Belief Representation Learning in Polarized Networks with
Information-Theoretic Variational Graph Auto-Encoders [26.640917190618612]
偏極ネットワークにおける信念表現学習のための教師なしアルゴリズムを開発した。
ユーザとコンテンツアイテム(例えば、ユーザビューを表す投稿)の両方を、適切に区切られた潜在空間に投影することを学ぶ。
ユーザとコンテンツの潜在表現は、イデオロギー的傾きを定量化し、問題に対する姿勢を検出し、予測するために使用することができる。
論文 参考訳(メタデータ) (2021-10-01T04:35:01Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。