論文の概要: CLIPTime: Time-Aware Multimodal Representation Learning from Images and Text
- arxiv url: http://arxiv.org/abs/2508.00447v1
- Date: Fri, 01 Aug 2025 09:08:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.809748
- Title: CLIPTime: Time-Aware Multimodal Representation Learning from Images and Text
- Title(参考訳): CLIPTime: 画像とテキストからタイムアウェアなマルチモーダル表現学習
- Authors: Anju Rani, Daniel Ortiz-Arroyo, Petar Durdevic,
- Abstract要約: 画像とテキストの入力から発生段階とそれに対応する菌糸成長のタイムスタンプの両方を予測するためのフレームワークを提案する。
CLIPアーキテクチャを基盤として,我々のモデルは共同で視覚・テキストの埋め込みを学習し,テスト中に明示的な時間入力を必要とせずに時間認識推論を可能にする。
実験の結果、CLIPTimeは生物学的進行を効果的にモデル化し、解釈可能な時間的基底出力を生成することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the temporal dynamics of biological growth is critical across diverse fields such as microbiology, agriculture, and biodegradation research. Although vision-language models like Contrastive Language Image Pretraining (CLIP) have shown strong capabilities in joint visual-textual reasoning, their effectiveness in capturing temporal progression remains limited. To address this, we propose CLIPTime, a multimodal, multitask framework designed to predict both the developmental stage and the corresponding timestamp of fungal growth from image and text inputs. Built upon the CLIP architecture, our model learns joint visual-textual embeddings and enables time-aware inference without requiring explicit temporal input during testing. To facilitate training and evaluation, we introduce a synthetic fungal growth dataset annotated with aligned timestamps and categorical stage labels. CLIPTime jointly performs classification and regression, predicting discrete growth stages alongside continuous timestamps. We also propose custom evaluation metrics, including temporal accuracy and regression error, to assess the precision of time-aware predictions. Experimental results demonstrate that CLIPTime effectively models biological progression and produces interpretable, temporally grounded outputs, highlighting the potential of vision-language models in real-world biological monitoring applications.
- Abstract(参考訳): 生物学的成長の時間的ダイナミクスを理解することは、微生物学、農業、生分解研究など様々な分野において重要である。
Contrastive Language Image Pretraining (CLIP)のような視覚言語モデルは、共同視覚的・テキスト的推論において強力な能力を示しているが、時間的進行を捉える効果は依然として限られている。
そこで我々はCLIPTimeというマルチモーダル・マルチタスク・フレームワークを提案し,画像とテキストの入力から発生段階とそれに対応する菌糸成長のタイムスタンプを予測する。
CLIPアーキテクチャを基盤として,我々のモデルは共同で視覚・テキストの埋め込みを学習し,テスト中に明示的な時間的入力を必要とせずにタイムアウェアな推論を可能にする。
トレーニングと評価を容易にするため, タイムスタンプと分類段階ラベルをアノテートした合成菌類成長データセットを導入する。
CLIPTimeは分類と回帰を共同で行い、連続したタイムスタンプとともに個別の成長段階を予測する。
また、時間認識予測の精度を評価するために、時間的精度と回帰誤差を含むカスタム評価指標を提案する。
実験により,CLIPTimeは生物学的進行を効果的にモデル化し,実世界の生物学的モニタリングアプリケーションにおける視覚言語モデルの可能性を強調した。
関連論文リスト
- Towards Foundation Model on Temporal Knowledge Graph Reasoning [17.165969719351125]
時間的知識グラフ(TKG)は、時間的事実を4重形式(s, p, o, t)で格納する。
新しいモデルは、細粒度時間パターンを捉えるために正弦波位置符号化を用いる。
PostRAは、目に見えない時間的知識グラフに強いゼロショット性能を示す。
論文 参考訳(メタデータ) (2025-06-04T09:19:49Z) - TimeCAP: Learning to Contextualize, Augment, and Predict Time Series Events with Large Language Model Agents [52.13094810313054]
TimeCAPは、時系列データのコンテキスト化ツールとしてLarge Language Models(LLM)を創造的に利用する時系列処理フレームワークである。
TimeCAPには2つの独立したLCMエージェントが組み込まれており、1つは時系列のコンテキストをキャプチャするテキスト要約を生成し、もう1つはより情報のある予測を行うためにこのリッチな要約を使用する。
実世界のデータセットによる実験結果から,TimeCAPは時系列イベント予測の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-17T04:17:27Z) - TopoCL: Topological Contrastive Learning for Time Series [1.8434042562191815]
時系列のためのトポロジカルコントラスト学習(TopoCL)を提案する。
TopoCLは、永続的ホモロジーを組み込むことで、情報損失を軽減する。
下流タスク分類,異常検出,予測,伝達学習の4つの実験を行った。
論文 参考訳(メタデータ) (2025-02-05T06:37:35Z) - Learning Time-aware Graph Structures for Spatially Correlated Time
Series Forecasting [30.93275270960829]
本稿では時系列間の時間認識相関を抽出する時間認識グラフ構造学習(TagSL)を提案する。
グラフ畳み込みに基づくGated Recurrent Unit (GCGRU) も提案する。
最後に,TagSLとGCGRUを組み合わせたTGCRN(Time-aware Graph Convolutional Recurrent Network)という統合フレームワークを導入し,マルチステップ時間予測のためのエンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-27T04:23:43Z) - TEMPO: Prompt-based Generative Pre-trained Transformer for Time Series Forecasting [24.834846119163885]
本稿では,時系列表現を効果的に学習できる新しいフレームワークTEMPOを提案する。
TEMPOは、様々な領域のデータから現実世界の時間現象を動的にモデル化する機能を拡張する。
論文 参考訳(メタデータ) (2023-10-08T00:02:25Z) - Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。
時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。
Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文 参考訳(メタデータ) (2023-10-03T01:31:25Z) - Time Associated Meta Learning for Clinical Prediction [78.99422473394029]
本稿では,時間関連メタラーニング(TAML)手法を提案する。
タスク分割後のスパーシリティ問題に対処するため、TAMLは時間情報共有戦略を採用し、正のサンプル数を増やす。
複数の臨床データセットに対するTAMLの有効性を示す。
論文 参考訳(メタデータ) (2023-03-05T03:54:54Z) - T-Phenotype: Discovering Phenotypes of Predictive Temporal Patterns in
Disease Progression [82.85825388788567]
我々は、ラベル付き時系列データから予測時相パターンの表現型を発見するために、新しい時間的クラスタリング手法T-Phenotypeを開発した。
T-フェノタイプは, 評価ベースラインのすべてに対して, 最良の表現型発見性能を示す。
論文 参考訳(メタデータ) (2023-02-24T13:30:35Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Deep Low-Shot Learning for Biological Image Classification and
Visualization from Limited Training Samples [52.549928980694695]
In situ hybridization (ISH) gene expression pattern image from the same developmental stage。
正確な段階のトレーニングデータをラベル付けするのは、生物学者にとっても非常に時間がかかる。
限られた訓練画像を用いてISH画像を正確に分類する2段階の低ショット学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T06:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。