論文の概要: ClimateVID -- Social Media Videos Analysis and Challenges Involved
- arxiv url: http://arxiv.org/abs/2604.27968v1
- Date: Thu, 30 Apr 2026 15:00:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.153944
- Title: ClimateVID -- Social Media Videos Analysis and Challenges Involved
- Title(参考訳): ClimateVID -- ソーシャルメディアのビデオ分析と課題
- Authors: Shiqi Xu, Moritz Burmester, Katharina Prasse, Isaac Bravo, Stefanie Walter, Margret Keuper,
- Abstract要約: ソーシャルメディアデータ上でゼロショットとクラスタリング機能を評価することで,視覚的テーマの自動検出を推し進める。
ゼロショット画像分類を用いて, VideoChatGPT, PandaGPT, VideoLLava の評価を行った。
クラスタリングを最小コストのマルチカット問題として扱うことで、洞察に富んだパターンを教師なしで発見することを目指している。
- 参考スコア(独自算出の注目度): 15.0442699168669
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pervasive growth of digital content, specifically short videos on social media platforms, has significantly altered how topics are discussed and understood in public discourse. In this work, we advance automated visual theme detection by assessing zero-shot and clustering capabilities on social media data. (1) We evaluated the capabilities of notable VLMs such as VideoChatGPT, PandaGPT, and VideoLLava using zero-shot image classification and compared their performance to the baseline provided by frame-wise CLIP image classification. (2) By treating clustering as a minimum cost multicut problem, we aim to uncover insightful patterns in an unsupervised manner. For both analysis strategies, we provide extensive evaluations and practical guidance to practitioners. While VLMs are currently not able to detect climate change specific classes, the clustering results are distinct visual frames. %Given that VLMs are not currently capable to grasp the climate change discourse, we focus the clustering evaluation of image embedding models. We find that both ConvNeXt V2 and DINOv2 produce meaningful clusters, with DINOv2 focusing more on style differences and abstract categories, while ConvNeXt V2 clusters differ in more fine-grained ways. Code available at https://github.com/KathPra/ClimateVID.git.
- Abstract(参考訳): デジタルコンテンツ、特にソーシャルメディアプラットフォーム上のショートビデオの普及は、公開談話における話題の議論や理解の仕方を大きく変えた。
本研究では,ソーシャルメディアデータ上でゼロショットとクラスタリング機能を評価することで,視覚的テーマの自動検出を推し進める。
1) ゼロショット画像分類を用いて, VideoChatGPT, PandaGPT, VideoLLavaなどの特筆すべきVLMの性能を評価し, その性能をフレームワイドCLIP画像分類によるベースラインと比較した。
2)クラスタリングを最小コストのマルチカット問題として扱うことにより,洞察力のあるパターンを教師なしで発見することを目指す。
どちらの分析方略も、幅広い評価と実践者への実践指導を提供する。
VLMは現在、気候変動固有のクラスを検出できないが、クラスタリングの結果は異なる視覚的フレームである。
% VLMは,現在,気候変動に関する言説を把握できないため,画像埋め込みモデルのクラスタリング評価に重点を置いている。
ConvNeXt V2とDINOv2はどちらも有意義なクラスタを生成しており、DINOv2はスタイルの違いや抽象的なカテゴリに重点を置いているのに対し、ConvNeXt V2はより微細な方法で異なっている。
コードはhttps://github.com/KathPra/ClimateVID.gitで公開されている。
関連論文リスト
- VLIC: Vision-Language Models As Perceptual Judges for Human-Aligned Image Compression [83.36460501519203]
Vision-Language Models for Image Compression (VLIC) は、拡散に基づく画像圧縮システムである。
このシステムをVLM判定で校正すると、データセットに応じて人力による視覚的圧縮に対して、競争力や最先端のパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2025-12-17T18:52:55Z) - Image Recognition with Vision and Language Embeddings of VLMs [14.022566577479322]
視覚言語モデル(VLM)は、画像テキストアライメントによる強力なゼロショット分類を実現している。
言語誘導画像と視覚のみの画像分類を多種多様なデュアルエンコーダVLMを用いて包括的に評価する。
精度に影響を及ぼす重要な要因は、素早い設計、クラス多様性、k-NNの隣人数、参照セットサイズなどである。
論文 参考訳(メタデータ) (2025-09-11T09:54:25Z) - I Spy With My Little Eye: A Minimum Cost Multicut Investigation of Dataset Frames [12.177674038614658]
視覚フレーミング分析は、社会科学において、談話における共通テーマや概念を決定するための重要な方法である。
本稿では,クラスタリングタスクを最小コストマルチカット問題 [MP] と表現する。
MPに対する解は、同じクラスタに属する2つの画像の局所的対の確率のみから、後続確率を最大化するクラスタリングを提供することが示されている。
最適クラスタリング(定義によって)と組み合わせて空間差を埋め込むという私たちの洞察は、自動的な視覚的フレーム検出を進歩させます。
論文 参考訳(メタデータ) (2024-12-02T09:09:47Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Why are Visually-Grounded Language Models Bad at Image Classification? [39.76294811955341]
GPT-4VやLLaVAといった視覚的言語モデル(VLM)を用いて画像分類タスクを再検討する。
既存のプロプライエタリかつパブリックなVLMは、ImageNetのような標準画像分類ベンチマークにおいてCLIPを著しく上回っていることがわかった。
画像分類のための重要な情報は、VLMの潜在空間に符号化されるが、十分なトレーニングデータで効果的に復号化できる。
論文 参考訳(メタデータ) (2024-05-28T17:57:06Z) - Image as Set of Points [60.30495338399321]
コンテキストクラスタ(CoC)は、イメージを非組織的なポイントの集合と見なし、単純化されたクラスタリングアルゴリズムによって特徴を抽出する。
われわれのCoCは畳み込みと無注意で、空間的相互作用のためのクラスタリングアルゴリズムにのみ依存している。
論文 参考訳(メタデータ) (2023-03-02T18:56:39Z) - GOCA: Guided Online Cluster Assignment for Self-Supervised Video
Representation Learning [49.69279760597111]
クラスタリングは教師なし学習におけるユビキタスなツールです。
既存の自己教師型表現学習手法の多くは、視覚的に支配的な特徴に基づくクラスタサンプルが一般的である。
具体的には、各ビューの初期クラスタ割り当てを事前に使用して、他のビューの最終クラスタ割り当てをガイドする、新しいクラスタリング戦略を提案する。
論文 参考訳(メタデータ) (2022-07-20T19:26:55Z) - Unsupervised Person Re-identification via Softened Similarity Learning [122.70472387837542]
人物再識別(re-ID)はコンピュータビジョンにおいて重要なトピックである。
本稿では,ラベル付き情報を必要としないre-IDの教師なし設定について検討する。
2つの画像ベースおよびビデオベースデータセットの実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-04-07T17:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。