論文の概要: Uni-RS: A Spatially Faithful Unified Understanding and Generation Model for Remote Sensing
- arxiv url: http://arxiv.org/abs/2601.17673v1
- Date: Sun, 25 Jan 2026 03:22:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.198645
- Title: Uni-RS: A Spatially Faithful Unified Understanding and Generation Model for Remote Sensing
- Title(参考訳): Uni-RS:リモートセンシングのための空間的に忠実な統一理解と生成モデル
- Authors: Weiyu Zhang, Yuan Hu, Yong Li, Yu Liu,
- Abstract要約: 統一されたリモートセンシングマルチモーダルモデルは、明らかに空間的逆転の呪いを示す。
リモートセンシングに適した最初の統一モデルUni-RSを提案する。
本研究では,テキスト・画像生成における空間忠実度を大幅に向上させる手法を提案する。
- 参考スコア(独自算出の注目度): 9.357861053928898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unified remote sensing multimodal models exhibit a pronounced spatial reversal curse: Although they can accurately recognize and describe object locations in images, they often fail to faithfully execute the same spatial relations during text-to-image generation, where such relations constitute core semantic information in remote sensing. Motivated by this observation, we propose Uni-RS, the first unified multimodal model tailored for remote sensing, to explicitly address the spatial asymmetry between understanding and generation. Specifically, we first introduce explicit Spatial-Layout Planning to transform textual instructions into spatial layout plans, decoupling geometric planning from visual synthesis. We then impose Spatial-Aware Query Supervision to bias learnable queries toward spatial relations explicitly specified in the instruction. Finally, we develop Image-Caption Spatial Layout Variation to expose the model to systematic geometry-consistent spatial transformations. Extensive experiments across multiple benchmarks show that our approach substantially improves spatial faithfulness in text-to-image generation, while maintaining strong performance on multimodal understanding tasks like image captioning, visual grounding, and VQA tasks.
- Abstract(参考訳): 画像中の物体の位置を正確に認識し記述することはできるが、そのような関係がリモートセンシングにおける中核的な意味情報を構成するテキスト・画像生成において、同じ空間関係を忠実に実行することができないことが多い。
本研究の目的は、リモートセンシングに適した最初の統一マルチモーダルモデルであるUni-RSを提案し、理解と生成の間の空間的非対称性を明確化することである。
具体的には,テキスト命令を空間配置計画に変換し,幾何学的計画と視覚合成を分離する空間レイアウト計画を提案する。
次に、学習可能なクエリを命令で明示的に指定された空間関係にバイアスする空間認識クエリ・スーパービジョンを課す。
最後に,画像制御空間レイアウト変分法を開発し,そのモデルを体系的な幾何学的空間変換に公開する。
画像キャプション,視覚的グラウンドニング,VQAタスクなどのマルチモーダル理解タスクにおいて高い性能を維持しながら,テキスト・画像生成における空間忠実度を大幅に向上することを示す。
関連論文リスト
- Dynamic Double Space Tower [4.553359878415195]
本研究は,モデルの推論能力を高めるために,注目機構を置き換える新しい手法を提案する。
具体的には,人間のジェスチャー視覚の原理に従って画像の観察を行うために,動的双方向空間タワーを4層に分割して提案する。
これは自然界において、エンティティ間の空間的構造に強力な構造的事前を与えるため、もはやピクセル間の関係を盲目的に検索することができない。
論文 参考訳(メタデータ) (2025-06-13T01:27:45Z) - Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation [12.893224628061516]
リモートセンシング画像セグメンテーション(RRSIS)の目的は、自然言語表現を用いて、空中画像内の特定のピクセルレベル領域を抽出することである。
本稿では,これらの課題に対処するため,SBANet(Scale-wise Bidirectional Alignment Network)と呼ばれる革新的なフレームワークを提案する。
提案手法は,RRSIS-DとRefSegRSのデータセットにおける従来の最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2025-01-01T14:24:04Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。