Fugu-MT 論文翻訳(概要): TAMMs: Temporal-Aware Multimodal Model for Satellite Image Change Understanding and Forecasting

論文の概要: TAMMs: Temporal-Aware Multimodal Model for Satellite Image Change Understanding and Forecasting

arxiv url: http://arxiv.org/abs/2506.18862v1
Date: Mon, 23 Jun 2025 17:26:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:37.102868
Title: TAMMs: Temporal-Aware Multimodal Model for Satellite Image Change Understanding and Forecasting
Title（参考訳）: TAMM:衛星画像変化の理解と予測のための時間対応マルチモーダルモデル
Authors: Zhongbin Guo, Yuhao Wang, Ping Jian, Xinyue Chen, Wei Peng, Ertai E,
Abstract要約: 本研究では,時間変化の理解と将来のシーン生成を両立させる新しい課題に対して,MLLM(Multimodal Large Language Model)の能力について検討する。衛星画像の理解と予測のための時間対応マルチモーダルモデルTAMMを提案する。
参考スコア（独自算出の注目度）: 8.914172086217185
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Satellite image time-series analysis demands fine-grained spatial-temporal reasoning, which remains a challenge for existing multimodal large language models (MLLMs). In this work, we study the capabilities of MLLMs on a novel task that jointly targets temporal change understanding and future scene generation, aiming to assess their potential for modeling complex multimodal dynamics over time. We propose TAMMs, a Temporal-Aware Multimodal Model for satellite image change understanding and forecasting, which enhances frozen MLLMs with lightweight temporal modules for structured sequence encoding and contextual prompting. To guide future image generation, TAMMs introduces a Semantic-Fused Control Injection (SFCI) mechanism that adaptively combines high-level semantic reasoning and structural priors within an enhanced ControlNet. This dual-path conditioning enables temporally consistent and semantically grounded image synthesis. Experiments demonstrate that TAMMs outperforms strong MLLM baselines in both temporal change understanding and future image forecasting tasks, highlighting how carefully designed temporal reasoning and semantic fusion can unlock the full potential of MLLMs for spatio-temporal understanding.
Abstract（参考訳）: 衛星画像時系列解析は, 既存のマルチモーダル大言語モデル (MLLM) の課題である, 微粒な時空間推論を必要とする。本研究では,時間とともに複雑なマルチモーダル力学をモデル化する可能性を評価することを目的として,時間的変化理解と将来のシーン生成を共同で目標とする新しいタスクにおけるMLLMの能力について検討する。衛星画像変化の理解と予測のための時間的マルチモーダルモデルであるTAMMを提案し、構造化シーケンスエンコーディングと文脈的プロンプトのための軽量な時間的モジュールを用いて凍結MLLMを強化する。将来の画像生成を導くため、TAMMは、高レベルのセマンティック推論と構造的事前を適応的に統合するセマンティック・フューズド・コントロール・インジェクション(SFCI)機構を導入した。このデュアルパス条件付けにより、時間的に一貫したセマンティックな画像合成が可能となる。実験により、TAMMは時間的変化理解と将来の画像予測タスクにおいて強力なMLLMベースラインを上回り、時間的推論と意味融合が、時空間的理解のためにMLLMの潜在能力を最大限に活用できるかを強調した。

関連論文リスト

Reprogramming Vision Foundation Models for Spatio-Temporal Forecasting [12.591771385493509]
汎用ロバストネス・時間予測のためのビジョン・ファンデーション・モデル(VFM)を体系的に再プログラミングするフレームワークであるtextST-VFMを提案する。このフレームワークは、生の入力と補助的なSTフローを統合し、フローは動的キューとして解釈可能な軽量の時間差信号を符号化する。 Emphpre-VFMリプログラミングでは、Temporal-Aware Tokenを使用して、両方のブランチをVFM互換の機能空間に整列させる。 emphpost-VFMリプログラミングでは、分岐間の動的相互作用を可能にするバイラテラルクロスプロンプトコーディネートモジュールが導入されている。
論文参考訳（メタデータ） (2025-07-14T08:33:34Z)
DaMO: A Data-Efficient Multimodal Orchestrator for Temporal Reasoning with Video LLMs [5.074812070492738]
本稿では,正確な時間的推論とマルチモーダル理解を目的とした,データ効率のよいビデオLLMであるDaMOを紹介する。構造化された4段階のプログレッシブトレーニングパラダイムを通じてDaMOをトレーニングし、マルチモーダルアライメント、セマンティックグラウンド、時間的推論機能を備えたモデルを段階的に装備する。我々の研究は、データ効率の良いビデオ言語モデリングのための有望な方向性を確立する。
論文参考訳（メタデータ） (2025-06-13T08:13:05Z)
FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文参考訳（メタデータ） (2025-05-26T15:46:53Z)
LLM-PS: Empowering Large Language Models for Time Series Forecasting with Temporal Patterns and Semantics [56.99021951927683]
Time Series Forecasting (TSF) は、金融計画や健康モニタリングなど、多くの現実世界のドメインにおいて重要である。既存のLarge Language Models (LLM) は通常、時系列データ固有の特性を無視するため、非最適に実行する。時系列データから基本的なtextitPatterns と有意義な textitSemantics を学習し,TLF のための LLM-PS を提案する。
論文参考訳（メタデータ） (2025-03-12T11:45:11Z)
Exploring the Role of Explicit Temporal Modeling in Multimodal Large Language Models for Video Understanding [23.477954901326978]
既存のアプローチでは、デコーダのみに依存する暗黙の時間的モデリングと、補助的な時間的エンコーダを使用する明示的な時間的モデリングが採用されている。適応性のある時間場とトークン圧縮比を持つフレキシブルな時間的モデリングを実現するための明示的時空間(STE)を提案する。本研究は、ビデオMLLMの進行に有効な洞察を提供する、明示的な時間的モデリングの重要な役割を強調した。
論文参考訳（メタデータ） (2025-01-28T08:30:58Z)
Multimodal Large Models Are Effective Action Anticipators [10.454791411515812]
ActionLLMは、ビデオシーケンスを逐次トークンとして扱う新しいアプローチであり、将来のアクションを予測するために大規模言語モデルを活用する。我々のベースラインモデルは、将来のトークンを設定し、アクションチューニングモジュールを導入し、テキストデコーダ層を線形層に減らし、LCMアーキテクチャを単純化する。 LLMのコモンセンス推論をさらに活用するために、観察されたフレームに対するアクションカテゴリを予測し、シーケンシャルな意味理解を導くためにシーケンシャルなテキスト手がかりを使用する。
論文参考訳（メタデータ） (2025-01-01T10:16:10Z)
Temporal Contrastive Learning for Video Temporal Reasoning in Large Vision-Language Models [44.99833362998488]
TSADP(Temporal Semantic Alignment via Dynamic Prompting)は、時間的推論能力を高める新しいフレームワークである。 VidSitu データセット上での TSADP の評価を行った。我々の分析は、TSADPの堅牢性、効率性、実用性を強調し、ビデオ言語理解の分野における一歩を踏み出した。
論文参考訳（メタデータ） (2024-12-16T02:37:58Z)
SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。コードとモデルはリリースされます。
論文参考訳（メタデータ） (2024-12-12T18:59:26Z)
SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation [92.73405185996315]
大規模マルチモーダルモデル(LMM)は、マルチモーダル理解と生成において印象的な能力を示した。マルチステップ生成のためのレイアウト計画や、人間のフィードバックやAIフィードバックからの学習など、既存のアプローチは、迅速なエンジニアリングに大きく依存している。モデルに依存しない反復型自己フィードバックフレームワーク(SILMM)を導入し,LMMが有用でスケーラブルな自己改善を実現し,テキスト画像のアライメントを最適化する。
論文参考訳（メタデータ） (2024-12-08T05:28:08Z)
Weakly Supervised Temporal Action Localization via Dual-Prior Collaborative Learning Guided by Multimodal Large Language Models [33.37379526356273]
MLLM4WTALと呼ばれる新しい学習パラダイムを導入する。 MLLMのポテンシャルを利用して、時間的アクションキーセマンティクスと完全なセマンティクスの事前を提供する。キーセマンティックマッチング(KSM)と完全セマンティック再構成(CSR)の2つの異なるモジュールを統合することでこれを実現できる。
論文参考訳（メタデータ） (2024-11-13T09:37:24Z)
MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。 MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文参考訳（メタデータ） (2024-08-22T11:57:16Z)
Multi-Patch Prediction: Adapting LLMs for Time Series Representation Learning [22.28251586213348]
aLLM4TSは、時系列表現学習にLarge Language Models(LLM)を適用する革新的なフレームワークである。われわれのフレームワークの特筆すべき要素はパッチワイドデコーディング層である。
論文参考訳（メタデータ） (2024-02-07T13:51:26Z)
Making LLaMA SEE and Draw with SEED Tokenizer [69.1083058794092]
大規模言語モデルにSEEとDrawの能力を持たせるための精巧な画像トークンであるSEEDを紹介します。 SEEDトークンを使うことで、LLMはオリジナルのトレーニングレシピの下でスケーラブルなマルチモーダルオートレグレスを実行することができる。 SEED-LLaMAはマルチターン・イン・コンテクスト・マルチモーダル生成のような合成創発的能力を示す。
論文参考訳（メタデータ） (2023-10-02T14:03:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。