論文の概要: What Time Tells Us? An Explorative Study of Time Awareness Learned from Static Images
- arxiv url: http://arxiv.org/abs/2503.17899v1
- Date: Sun, 23 Mar 2025 01:56:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:41.907230
- Title: What Time Tells Us? An Explorative Study of Time Awareness Learned from Static Images
- Title(参考訳): 何時が教えてくれるか?静的画像から学ぶ時間意識の探索的研究
- Authors: Dongheng Lin, Han Hu, Jianbo Jiao,
- Abstract要約: 静的画像から時間認識を学ぶ可能性を探る。
タイムスタンプと関連する視覚表現を協調的にモデル化するための時間画像コントラスト学習手法を提案する。
本研究は,静止画像から時間関連視覚手がかりを学習し,様々な視覚課題に有用であることが示唆された。
- 参考スコア(独自算出の注目度): 25.9110838342389
- License:
- Abstract: Time becomes visible through illumination changes in what we see. Inspired by this, in this paper we explore the potential to learn time awareness from static images, trying to answer: what time tells us? To this end, we first introduce a Time-Oriented Collection (TOC) dataset, which contains 130,906 images with reliable timestamps. Leveraging this dataset, we propose a Time-Image Contrastive Learning (TICL) approach to jointly model timestamps and related visual representations through cross-modal contrastive learning. We found that the proposed TICL, 1) not only achieves state-of-the-art performance on the timestamp estimation task, over various benchmark metrics, 2) but also, interestingly, though only seeing static images, the time-aware embeddings learned from TICL show strong capability in several time-aware downstream tasks such as time-based image retrieval, video scene classification, and time-aware image editing. Our findings suggest that time-related visual cues can be learned from static images and are beneficial for various vision tasks, laying a foundation for future research on understanding time-related visual context. Project page:https://rathgrith.github.io/timetells/.
- Abstract(参考訳): 私たちが見ているものには、照明の変化によって時間が見えます。
このことから着想を得たこの論文では、静的画像から時間意識を学ぶ可能性を探り、答えを試みる。
この目的のために、我々はまず、信頼性の高いタイムスタンプを持つ130,906のイメージを含む、時間指向コレクション(TOC)データセットを導入しました。
このデータセットを活用することで、時間-画像のコントラスト学習(TICL)アプローチを、モーダルなコントラスト学習を通じて、タイムスタンプと関連する視覚表現を協調的にモデル化する。
提案されたTICL,
1) タイムスタンプ推定タスクにおいて, 様々なベンチマーク指標を用いて, 最先端のパフォーマンスを達成するだけでなく,
また,静的な画像しか見ることができないが,TICLから学習した時間認識埋め込みは,時間に基づく画像検索,映像シーン分類,時間認識画像編集など,複数の時間認識下流タスクにおいて強力な機能を示す。
以上の結果から,静的な画像から時間関連の視覚的手がかりを学習することができ,様々な視覚的タスクに有用であることが示唆された。
プロジェクトページ:https://rathgrith.github.io/timetells/。
関連論文リスト
- From Pixels to Predictions: Spectrogram and Vision Transformer for Better Time Series Forecasting [15.234725654622135]
時系列予測は、様々な領域における意思決定において重要な役割を担っている。
近年,これらの課題に対処するために,コンピュータビジョンモデルを用いた画像駆動アプローチが研究されている。
時系列データの視覚的表現として時間周波数スペクトログラムを用いる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-17T00:14:29Z) - Soft Contrastive Learning for Time Series [5.752266579415516]
時系列の簡易かつ効果的なソフトコントラスト学習戦略であるSoftCLTを提案する。
具体的には,1)データ空間上の時系列間の距離によるインスタンス単位のコントラスト損失,2)タイムスタンプの違いによる時間的コントラスト損失について,ソフトな割り当てを定義する。
実験では、SoftCLTは、分類、半教師付き学習、移動学習、異常検出など、様々な下流タスクのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2023-12-27T06:15:00Z) - Blind Dates: Examining the Expression of Temporality in Historical
Photographs [57.07335632641355]
マルチモーダル言語とビジョンモデルであるCLIPのオープンソース実装であるOpenCLIPを用いて、画像の日付を調査する。
我々は1950年から1999年までの39,866枚のグレースケールの歴史的プレス写真を含むtextitDe Boer Scene Detectionデータセットを使用している。
解析の結果、バス、車、猫、犬、そして人々が写っている画像はより正確に年代付けされており、時間的マーカーの存在が示唆されている。
論文 参考訳(メタデータ) (2023-10-10T13:51:24Z) - Time Does Tell: Self-Supervised Time-Tuning of Dense Image
Representations [79.87044240860466]
本稿では,高密度自己教師あり学習における時間的一貫性を取り入れた新しい手法を提案する。
タイムチューニング(time-tuning)と呼ぶ我々のアプローチは、画像事前学習モデルから始まり、ラベルなしビデオに新たな自己教師付き時間的アライメントクラスタリングロスを伴って微調整を行う。
タイムチューニングは、教師なしのセマンティックセマンティックセグメンテーションを8~10%改善し、画像にマッチさせる。
論文 参考訳(メタデータ) (2023-08-22T21:28:58Z) - There is a Time and Place for Reasoning Beyond the Image [63.96498435923328]
画像は人間の目へのピクセルだけでなく、他のソースからのコンテキスト情報から推論、関連付け、推論して、推論することで、より完全な画像を確立することができる。
我々は、ニューヨーク・タイムズ(NYT)から自動的に抽出された16k画像と関連するニュース、時間、位置のデータセットTARAと、WITから離れた監視対象として追加で61k例を紹介した。
我々は、最先端のジョイントモデルと人間のパフォーマンスの間に70%のギャップがあることを示し、これは、セグメントワイズ推論を用いて高レベルな視覚言語ジョイントモデルを動機づける提案モデルによってわずかに満たされている。
論文 参考訳(メタデータ) (2022-03-01T21:52:08Z) - Content-Based Detection of Temporal Metadata Manipulation [91.34308819261905]
画像の撮像時間とその内容と地理的位置とが一致しているかどうかを検証するためのエンドツーエンドのアプローチを提案する。
中心となる考え方は、画像の内容、キャプチャ時間、地理的位置が一致する確率を予測するための教師付き一貫性検証の利用である。
我々のアプローチは、大規模なベンチマークデータセットの以前の作業により改善され、分類精度が59.03%から81.07%に向上した。
論文 参考訳(メタデータ) (2021-03-08T13:16:19Z) - On the Post-hoc Explainability of Deep Echo State Networks for Time
Series Forecasting, Image and Video Classification [63.716247731036745]
エコー状態ネットワークは、主に学習アルゴリズムの単純さと計算効率のために、時間を通じて多くのスターを惹きつけてきた。
本研究では,時間系列,画像,映像データを用いた学習タスクに適用した場合のエコー状態ネットワークの説明可能性について検討した。
本研究では,これらの反復モデルが把握した知識に関する理解可能な情報を抽出する3つの手法を提案する。
論文 参考訳(メタデータ) (2021-02-17T08:56:33Z) - Geography-Aware Self-Supervised Learning [79.4009241781968]
異なる特徴により、標準ベンチマークにおけるコントラスト学習と教師あり学習の間には、非自明なギャップが持続していることが示される。
本稿では,リモートセンシングデータの空間的整合性を利用した新しいトレーニング手法を提案する。
提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションにおけるコントラスト学習と教師あり学習のギャップを埋めるものである。
論文 参考訳(メタデータ) (2020-11-19T17:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。