論文の概要: TAMMs: Temporal-Aware Multimodal Model for Satellite Image Change Understanding and Forecasting
- arxiv url: http://arxiv.org/abs/2506.18862v1
- Date: Mon, 23 Jun 2025 17:26:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.102868
- Title: TAMMs: Temporal-Aware Multimodal Model for Satellite Image Change Understanding and Forecasting
- Title(参考訳): TAMM:衛星画像変化の理解と予測のための時間対応マルチモーダルモデル
- Authors: Zhongbin Guo, Yuhao Wang, Ping Jian, Xinyue Chen, Wei Peng, Ertai E,
- Abstract要約: 本研究では,時間変化の理解と将来のシーン生成を両立させる新しい課題に対して,MLLM(Multimodal Large Language Model)の能力について検討する。
衛星画像の理解と予測のための時間対応マルチモーダルモデルTAMMを提案する。
- 参考スコア(独自算出の注目度): 8.914172086217185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Satellite image time-series analysis demands fine-grained spatial-temporal reasoning, which remains a challenge for existing multimodal large language models (MLLMs). In this work, we study the capabilities of MLLMs on a novel task that jointly targets temporal change understanding and future scene generation, aiming to assess their potential for modeling complex multimodal dynamics over time. We propose TAMMs, a Temporal-Aware Multimodal Model for satellite image change understanding and forecasting, which enhances frozen MLLMs with lightweight temporal modules for structured sequence encoding and contextual prompting. To guide future image generation, TAMMs introduces a Semantic-Fused Control Injection (SFCI) mechanism that adaptively combines high-level semantic reasoning and structural priors within an enhanced ControlNet. This dual-path conditioning enables temporally consistent and semantically grounded image synthesis. Experiments demonstrate that TAMMs outperforms strong MLLM baselines in both temporal change understanding and future image forecasting tasks, highlighting how carefully designed temporal reasoning and semantic fusion can unlock the full potential of MLLMs for spatio-temporal understanding.
- Abstract(参考訳): 衛星画像時系列解析は, 既存のマルチモーダル大言語モデル (MLLM) の課題である, 微粒な時空間推論を必要とする。
本研究では,時間とともに複雑なマルチモーダル力学をモデル化する可能性を評価することを目的として,時間的変化理解と将来のシーン生成を共同で目標とする新しいタスクにおけるMLLMの能力について検討する。
衛星画像変化の理解と予測のための時間的マルチモーダルモデルであるTAMMを提案し、構造化シーケンスエンコーディングと文脈的プロンプトのための軽量な時間的モジュールを用いて凍結MLLMを強化する。
将来の画像生成を導くため、TAMMは、高レベルのセマンティック推論と構造的事前を適応的に統合するセマンティック・フューズド・コントロール・インジェクション(SFCI)機構を導入した。
このデュアルパス条件付けにより、時間的に一貫したセマンティックな画像合成が可能となる。
実験により、TAMMは時間的変化理解と将来の画像予測タスクにおいて強力なMLLMベースラインを上回り、時間的推論と意味融合が、時空間的理解のためにMLLMの潜在能力を最大限に活用できるかを強調した。
関連論文リスト
- Temporal Consistency-Aware Text-to-Motion Generation [41.71400323450202]
時間的一貫性を考慮したT2M生成フレームワークTCA-T2Mを提案する。
本稿では,時間的整合性を考慮した時空間VQ-VAEを提案する。
HumanML3DとKIT-MLベンチマークの実験は、TCA-T2Mが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-02-20T08:17:01Z) - UniT: Unified Multimodal Chain-of-Thought Test-time Scaling [85.590774707406]
統一モデルは単一のアーキテクチャ内でマルチモーダル理解と生成の両方を扱うことができるが、通常は出力を反復的に書き換えることなく単一のパスで操作する。
マルチモーダルなテストタイムスケーリングのためのフレームワークであるUniTを導入し、単一の統一モデルで複数のラウンドをまたいだ推論、検証、精査を可能にします。
論文 参考訳(メタデータ) (2026-02-12T18:59:49Z) - AR-MOT: Autoregressive Multi-object Tracking [56.09738000988466]
本稿では,大規模言語モデル(LLM)フレームワーク内のシーケンス生成タスクとしてMOTを定式化する,新しい自己回帰パラダイムを提案する。
この設計により、タスク固有のヘッドを必要とせずに、フレキシブルなシーケンス構成によって構造化された結果を出力できる。
地域レベルの視覚知覚を高めるために,事前訓練された検出器に基づくオブジェクト・トケナイザを導入する。
論文 参考訳(メタデータ) (2026-01-05T09:17:28Z) - TempR1: Improving Temporal Understanding of MLLMs via Temporal-Aware Multi-Task Reinforcement Learning [25.848638804759872]
MLLM(Multimodal Large Language Models)の時間的理解の促進は,映像解析の進歩に不可欠である。
本研究では,MLLMの時間的理解を体系的に強化する時間的マルチタスク強化学習フレームワークであるTempR1を提案する。
論文 参考訳(メタデータ) (2025-12-03T16:57:00Z) - FAIM: Frequency-Aware Interactive Mamba for Time Series Classification [87.84511960413715]
時系列分類(TSC)は、環境モニタリング、診断、姿勢認識など、多くの実世界の応用において重要である。
本稿では,周波数対応対話型マンバモデルであるFAIMを提案する。
FAIMは既存の最先端(SOTA)手法を一貫して上回り、精度と効率のトレードオフが優れていることを示す。
論文 参考訳(メタデータ) (2025-11-26T08:36:33Z) - MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection [94.12444452690329]
本稿では,長距離モデリングとグローバル機能検出機能を導入した新しい状態空間TADモデルであるMambaTADを提案する。
MambaTADは、複数の公開ベンチマークで一貫して優れたTAD性能を達成する。
論文 参考訳(メタデータ) (2025-11-22T06:04:29Z) - Foundation Model for Skeleton-Based Human Action Understanding [56.89025287217221]
本稿では,統一骨格に基づくDense Representation Learningフレームワークを提案する。
USDRLはトランスフォーマーベースのDense Spatio-Temporal (DSTE)、Multi-Grained Feature Deorrelation (MG-FD)、Multi-Perspective Consistency Training (MPCT)で構成されている。
論文 参考訳(メタデータ) (2025-08-18T02:42:16Z) - ME-TST+: Micro-expression Analysis via Temporal State Transition with ROI Relationship Awareness [12.584801819076425]
マイクロ表現(ME)は、個人固有の感情、嗜好、傾向の重要な指標とみなされる。
従来のディープラーニングアプローチでは、スライディングウインドウ分類ネットワークが一般的であった。
本稿では,ME-TSTとME-TST+という2つの状態空間モデルに基づくアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-08-11T15:28:32Z) - Reprogramming Vision Foundation Models for Spatio-Temporal Forecasting [12.591771385493509]
汎用ロバストネス・時間予測のためのビジョン・ファンデーション・モデル(VFM)を体系的に再プログラミングするフレームワークであるtextST-VFMを提案する。
このフレームワークは、生の入力と補助的なSTフローを統合し、フローは動的キューとして解釈可能な軽量の時間差信号を符号化する。
Emphpre-VFMリプログラミングでは、Temporal-Aware Tokenを使用して、両方のブランチをVFM互換の機能空間に整列させる。
emphpost-VFMリプログラミングでは、分岐間の動的相互作用を可能にするバイラテラルクロスプロンプトコーディネートモジュールが導入されている。
論文 参考訳(メタデータ) (2025-07-14T08:33:34Z) - DaMO: A Data-Efficient Multimodal Orchestrator for Temporal Reasoning with Video LLMs [5.074812070492738]
本稿では,正確な時間的推論とマルチモーダル理解を目的とした,データ効率のよいビデオLLMであるDaMOを紹介する。
構造化された4段階のプログレッシブトレーニングパラダイムを通じてDaMOをトレーニングし、マルチモーダルアライメント、セマンティックグラウンド、時間的推論機能を備えたモデルを段階的に装備する。
我々の研究は、データ効率の良いビデオ言語モデリングのための有望な方向性を確立する。
論文 参考訳(メタデータ) (2025-06-13T08:13:05Z) - FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。
ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。
本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文 参考訳(メタデータ) (2025-05-26T15:46:53Z) - DG-STMTL: A Novel Graph Convolutional Network for Multi-Task Spatio-Temporal Traffic Forecasting [0.0]
正確な予測の鍵となる課題は、複雑な時間的依存関係をモデル化し、データ固有のダイナミクスに適応する方法である。
従来のグラフコンテンポラルネットワーク(GCN)は、バイアスや学習可能なパターンを導入する静的な隣接行列に悩まされることが多い。
本研究では,新しいMTLフレームワークDGS-TLTM(Dynamic Group-wise S-temporal Multi-Temporal Learning)を提案する。
論文 参考訳(メタデータ) (2025-04-10T15:00:20Z) - UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines [64.84631333071728]
本稿では,時間的モデリングのためのトランスフォーマーベースの統合フレームワークであるbfUnistageを紹介する。
我々の研究は、タスク固有の視覚テキストが時間学習のための一般化可能なモデルを構築することができることを示した。
また、時間的ダイナミクスを明示的に組み込むための時間的モジュールも導入する。
論文 参考訳(メタデータ) (2025-03-26T17:33:23Z) - LLM-PS: Empowering Large Language Models for Time Series Forecasting with Temporal Patterns and Semantics [56.99021951927683]
Time Series Forecasting (TSF) は、金融計画や健康モニタリングなど、多くの現実世界のドメインにおいて重要である。
既存のLarge Language Models (LLM) は通常、時系列データ固有の特性を無視するため、非最適に実行する。
時系列データから基本的なtextitPatterns と有意義な textitSemantics を学習し,TLF のための LLM-PS を提案する。
論文 参考訳(メタデータ) (2025-03-12T11:45:11Z) - Exploring the Role of Explicit Temporal Modeling in Multimodal Large Language Models for Video Understanding [23.477954901326978]
既存のアプローチでは、デコーダのみに依存する暗黙の時間的モデリングと、補助的な時間的エンコーダを使用する明示的な時間的モデリングが採用されている。
適応性のある時間場とトークン圧縮比を持つフレキシブルな時間的モデリングを実現するための明示的時空間(STE)を提案する。
本研究は、ビデオMLLMの進行に有効な洞察を提供する、明示的な時間的モデリングの重要な役割を強調した。
論文 参考訳(メタデータ) (2025-01-28T08:30:58Z) - Multimodal Large Models Are Effective Action Anticipators [10.454791411515812]
ActionLLMは、ビデオシーケンスを逐次トークンとして扱う新しいアプローチであり、将来のアクションを予測するために大規模言語モデルを活用する。
我々のベースラインモデルは、将来のトークンを設定し、アクションチューニングモジュールを導入し、テキストデコーダ層を線形層に減らし、LCMアーキテクチャを単純化する。
LLMのコモンセンス推論をさらに活用するために、観察されたフレームに対するアクションカテゴリを予測し、シーケンシャルな意味理解を導くためにシーケンシャルなテキスト手がかりを使用する。
論文 参考訳(メタデータ) (2025-01-01T10:16:10Z) - Temporal Contrastive Learning for Video Temporal Reasoning in Large Vision-Language Models [44.99833362998488]
TSADP(Temporal Semantic Alignment via Dynamic Prompting)は、時間的推論能力を高める新しいフレームワークである。
VidSitu データセット上での TSADP の評価を行った。
我々の分析は、TSADPの堅牢性、効率性、実用性を強調し、ビデオ言語理解の分野における一歩を踏み出した。
論文 参考訳(メタデータ) (2024-12-16T02:37:58Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation [92.73405185996315]
大規模マルチモーダルモデル(LMM)は、マルチモーダル理解と生成において印象的な能力を示した。
マルチステップ生成のためのレイアウト計画や、人間のフィードバックやAIフィードバックからの学習など、既存のアプローチは、迅速なエンジニアリングに大きく依存している。
モデルに依存しない反復型自己フィードバックフレームワーク(SILMM)を導入し,LMMが有用でスケーラブルな自己改善を実現し,テキスト画像のアライメントを最適化する。
論文 参考訳(メタデータ) (2024-12-08T05:28:08Z) - Weakly Supervised Temporal Action Localization via Dual-Prior Collaborative Learning Guided by Multimodal Large Language Models [33.37379526356273]
MLLM4WTALと呼ばれる新しい学習パラダイムを導入する。
MLLMのポテンシャルを利用して、時間的アクションキーセマンティクスと完全なセマンティクスの事前を提供する。
キーセマンティックマッチング(KSM)と完全セマンティック再構成(CSR)の2つの異なるモジュールを統合することでこれを実現できる。
論文 参考訳(メタデータ) (2024-11-13T09:37:24Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - Multi-Patch Prediction: Adapting LLMs for Time Series Representation
Learning [22.28251586213348]
aLLM4TSは、時系列表現学習にLarge Language Models(LLM)を適用する革新的なフレームワークである。
われわれのフレームワークの特筆すべき要素はパッチワイドデコーディング層である。
論文 参考訳(メタデータ) (2024-02-07T13:51:26Z) - Making LLaMA SEE and Draw with SEED Tokenizer [69.1083058794092]
大規模言語モデルにSEEとDrawの能力を持たせるための精巧な画像トークンであるSEEDを紹介します。
SEEDトークンを使うことで、LLMはオリジナルのトレーニングレシピの下でスケーラブルなマルチモーダルオートレグレスを実行することができる。
SEED-LLaMAはマルチターン・イン・コンテクスト・マルチモーダル生成のような合成創発的能力を示す。
論文 参考訳(メタデータ) (2023-10-02T14:03:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。