論文の概要: Temporal-Visual Semantic Alignment: A Unified Architecture for Transferring Spatial Priors from Vision Models to Zero-Shot Temporal Tasks
- arxiv url: http://arxiv.org/abs/2511.19856v1
- Date: Tue, 25 Nov 2025 02:35:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.244259
- Title: Temporal-Visual Semantic Alignment: A Unified Architecture for Transferring Spatial Priors from Vision Models to Zero-Shot Temporal Tasks
- Title(参考訳): 時間的視覚的セマンティックアライメント:視覚モデルからゼロショットの時間的タスクへ空間的優先順位を移す統一アーキテクチャ
- Authors: Xiangkai Ma, Han Zhang, Wenzhong Li, Sanglu Lu,
- Abstract要約: TimeArtistは、時系列のゆらぎと視覚概念のセマンティックレベルアライメントの先駆けとなる、時間-視覚変換フレームワークである。
我々の研究は、時間的ダイナミクスと視覚的セマンティクスのギャップを埋めて、クロスモーダル生成の新しいパラダイムを確立します。
- 参考スコア(独自算出の注目度): 19.299293037292113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Multimodal Models (LMMs) have achieved remarkable progress in aligning and generating content across text and image modalities. However, the potential of using non-visual, continuous sequential, as a conditioning signal for high-fidelity image generation remains largely unexplored. Furthermore, existing methods that convert series into "pseudo-images" for temporal forecasting fail to establish semantic-level alignment. In this paper, we propose TimeArtist, a temporal-visual conversion framework that pioneers semantic-level alignment between time series fluctuations and visual concepts. It pioneers a "warmup-align" paradigm: first, a dual-autoencoder and shared quantizer are self-supervised trained on large-scale datasets to learn modality-shared representations. Then, the encoders and quantizer are frozen, and a projection is introduced to align temporal and visual samples at the representation level. TimeArtist establishes a versatile cross-modal framework, enabling high-quality, diverse image generation directly from time series, while capturing temporal fluctuation patterns to render images as styles transfer. Extensive experiments show that TimeArtist achieves satisfactory performance in image generation metrics, while also attaining superior results in zero-shot temporal tasks. Our work establishes a new paradigm for cross-modal generation, bridging the gap between temporal dynamics and visual semantics.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、テキストと画像のモダリティをまたいだコンテントの調整と生成において、顕著な進歩を遂げている。
しかし、高忠実度画像生成の条件付け信号として、非視覚的連続的な逐次的利用の可能性は、いまだに未解明のままである。
さらに、時系列を時間予測の「擬似イメージ」に変換する既存の手法では、意味レベルのアライメントを確立することができない。
本稿では時系列のゆらぎと視覚概念のセマンティックレベルアライメントを先導する時間-視覚変換フレームワークであるTimeArtistを提案する。
第一に、デュアルオートエンコーダと共有量子化器は、モダリティ共有表現を学ぶために、大規模なデータセットで自制訓練されている。
そして、エンコーダと量子化器を凍結し、時間的および視覚的なサンプルを表現レベルで整列させるプロジェクションを導入する。
TimeArtistは多機能なクロスモーダルフレームワークを確立し、時系列から直接高品質で多様な画像を生成すると同時に、時間変動パターンをキャプチャして、画像をスタイル転送としてレンダリングする。
大規模な実験により、TimeArtistは画像生成の指標において満足なパフォーマンスを達成し、同時にゼロショットの時間的タスクにおいて優れた結果を得ることができた。
我々の研究は、時間的ダイナミクスと視覚的セマンティクスのギャップを埋めて、クロスモーダル生成の新しいパラダイムを確立します。
関連論文リスト
- iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation [60.66986667921744]
iMontageは、強力なビデオモデルをオールインワンイメージジェネレータに再利用するために設計された統一されたフレームワークである。
本稿では,データキュレーションプロセスとトレーニングパラダイムを補完するエレガントで最小限の適応戦略を提案する。
このアプローチにより、モデルは、その貴重な元の動きを損なうことなく、広い画像操作能力を得ることができる。
論文 参考訳(メタデータ) (2025-11-25T18:54:16Z) - Growing Visual Generative Capacity for Pre-Trained MLLMs [60.826355079902505]
Bridgeは純粋な自己回帰統合MLLMであり、学習済みの視覚的理解モデルを生成能力で強化する。
本稿では,コンパクトなセマンティックトークンと微細なピクセルトークンを統合するセマンティック・ツー・ピクセルの離散表現を提案する。
論文 参考訳(メタデータ) (2025-10-02T00:40:02Z) - Time Series Representations for Classification Lie Hidden in Pretrained Vision Transformers [49.07665715422702]
時系列を画像に変換するフレームワークであるTime Vision Transformer (TiViT) を提案する。
標準時系列分類ベンチマークにおいて, TiViT が最先端の性能を達成することを示す。
本研究は,非視覚領域における視覚表現の再利用に向けた新たな方向を明らかにするものである。
論文 参考訳(メタデータ) (2025-06-10T09:54:51Z) - Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。
我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。
画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文 参考訳(メタデータ) (2025-03-17T17:58:30Z) - Grid: Omni Visual Generation [34.57101244093434]
現在のアプローチでは、膨大な計算コストでスクラッチから特別なビデオモデルを構築するか、イメージジェネレータに別のモーションモジュールを追加するかのどちらかである。
現代の画像生成モデルは、暗黙の時間的理解を伴う構造的レイアウトの処理において、未利用の可能性を秘めている。
本稿では,時間的シーケンスをグリッドレイアウトとして再構成し,視覚的シーケンスの全体的処理を可能にするGRIDを提案する。
論文 参考訳(メタデータ) (2024-12-14T07:22:03Z) - Temporal Embeddings: Scalable Self-Supervised Temporal Representation
Learning from Spatiotemporal Data for Multimodal Computer Vision [1.4127889233510498]
移動活動時系列に基づいて景観を階層化する新しい手法を提案する。
ピクセルワイズ埋め込みは、タスクベースのマルチモーダルモデリングに使用できるイメージライクなチャネルに変換される。
論文 参考訳(メタデータ) (2023-10-16T02:53:29Z) - ViTs for SITS: Vision Transformers for Satellite Image Time Series [52.012084080257544]
ビジョン変換器(ViT)に基づく一般衛星画像時系列(SITS)処理のための完全アテンショナルモデルを提案する。
TSViTはSITSレコードを空間と時間で重複しないパッチに分割し、トークン化し、分解されたテンポロ空間エンコーダで処理する。
論文 参考訳(メタデータ) (2023-01-12T11:33:07Z) - Leveraging Image-based Generative Adversarial Networks for Time Series
Generation [4.541582055558865]
XIRP(Extended Intertemporal Return Plot)という時系列の2次元画像表現を提案する。
提案手法は, 時間間時系列のダイナミクスをスケール不変かつ可逆的に捉え, トレーニング時間を短縮し, サンプル品質を向上させる。
論文 参考訳(メタデータ) (2021-12-15T11:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。