論文の概要: Blind Dates: Examining the Expression of Temporality in Historical
Photographs
- arxiv url: http://arxiv.org/abs/2310.06633v1
- Date: Tue, 10 Oct 2023 13:51:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 15:17:45.973793
- Title: Blind Dates: Examining the Expression of Temporality in Historical
Photographs
- Title(参考訳): 盲目の日付:歴史写真における時間性表現の検討
- Authors: Alexandra Barancov\'a, Melvin Wevers, Nanne van Noord
- Abstract要約: マルチモーダル言語とビジョンモデルであるCLIPのオープンソース実装であるOpenCLIPを用いて、画像の日付を調査する。
我々は1950年から1999年までの39,866枚のグレースケールの歴史的プレス写真を含むtextitDe Boer Scene Detectionデータセットを使用している。
解析の結果、バス、車、猫、犬、そして人々が写っている画像はより正確に年代付けされており、時間的マーカーの存在が示唆されている。
- 参考スコア(独自算出の注目度): 57.07335632641355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores the capacity of computer vision models to discern
temporal information in visual content, focusing specifically on historical
photographs. We investigate the dating of images using OpenCLIP, an open-source
implementation of CLIP, a multi-modal language and vision model. Our experiment
consists of three steps: zero-shot classification, fine-tuning, and analysis of
visual content. We use the \textit{De Boer Scene Detection} dataset, containing
39,866 gray-scale historical press photographs from 1950 to 1999. The results
show that zero-shot classification is relatively ineffective for image dating,
with a bias towards predicting dates in the past. Fine-tuning OpenCLIP with a
logistic classifier improves performance and eliminates the bias. Additionally,
our analysis reveals that images featuring buses, cars, cats, dogs, and people
are more accurately dated, suggesting the presence of temporal markers. The
study highlights the potential of machine learning models like OpenCLIP in
dating images and emphasizes the importance of fine-tuning for accurate
temporal analysis. Future research should explore the application of these
findings to color photographs and diverse datasets.
- Abstract(参考訳): 本稿では,コンピュータビジョンモデルの時間的情報を視覚的に識別する能力について検討し,特に歴史的写真に着目した。
マルチモーダル言語とビジョンモデルであるCLIPのオープンソース実装であるOpenCLIPを用いて,画像の日付を決定する。
実験は,ゼロショット分類,微調整,視覚コンテンツの分析の3段階からなる。
1950年から1999年にかけて、39,866枚のグレースケールの歴史的報道写真を含む \textit{de boer scene detection}データセットを使用する。
その結果,ゼロショット分類は画像年代測定に比較的有効ではなく,過去の日付予測に偏っていることがわかった。
ロジスティックな分類器を備えた微調整OpenCLIPは、性能を改善し、バイアスを取り除く。
また, バス, 車, 猫, 犬, 人などの画像はより正確な年代推定が可能であり, 時間マーカーの存在が示唆された。
この研究は、デート画像におけるOpenCLIPのような機械学習モデルの可能性を強調し、正確な時間解析のための微調整の重要性を強調している。
今後の研究は、これらの発見をカラー写真や多様なデータセットに適用することを検討する。
関連論文リスト
- Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Predicting beauty, liking, and aesthetic quality: A comparative analysis
of image databases for visual aesthetics research [0.0]
対象認識のために開発された畳み込みニューラルネットワークの層を, (A) 先行研究された20の統計画像特性の集合を用いて, 連続して評価を予測できるかを検討する。
以上の結果から,各データセットにおける審美評価の予測可能性に有意な変化が認められた。
意外なことに、統計的画像特性と畳み込みニューラルネットワークは、類似した精度で美的評価を予測し、この2つの手法が捉えた画像情報の顕著な重複を浮き彫りにした。
論文 参考訳(メタデータ) (2023-07-03T13:03:17Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - CIFAKE: Image Classification and Explainable Identification of
AI-Generated Synthetic Images [7.868449549351487]
本稿では,コンピュータビジョンによるAI生成画像の認識能力を高めることを提案する。
写真が本物かAIによって生成されるかに関して、バイナリ分類問題として存在する2つのデータセット。
本研究では,畳み込みニューラルネットワーク(CNN)を用いて画像をリアルとフェイクの2つのカテゴリに分類する。
論文 参考訳(メタデータ) (2023-03-24T16:33:06Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - There is a Time and Place for Reasoning Beyond the Image [63.96498435923328]
画像は人間の目へのピクセルだけでなく、他のソースからのコンテキスト情報から推論、関連付け、推論して、推論することで、より完全な画像を確立することができる。
我々は、ニューヨーク・タイムズ(NYT)から自動的に抽出された16k画像と関連するニュース、時間、位置のデータセットTARAと、WITから離れた監視対象として追加で61k例を紹介した。
我々は、最先端のジョイントモデルと人間のパフォーマンスの間に70%のギャップがあることを示し、これは、セグメントワイズ推論を用いて高レベルな視覚言語ジョイントモデルを動機づける提案モデルによってわずかに満たされている。
論文 参考訳(メタデータ) (2022-03-01T21:52:08Z) - Museum Painting Retrieval [0.0]
古典的なコンピュータビジョン技術を用いて,美術館画像コレクション内の絵画のサンプル検索システムを構築した。
画像中の異なる摂動を持つデータセットにおける色,テクスチャ,テキスト,特徴記述子の性能を検討する。
論文 参考訳(メタデータ) (2021-05-11T09:28:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。