論文の概要: M-SpecGene: Generalized Foundation Model for RGBT Multispectral Vision
- arxiv url: http://arxiv.org/abs/2507.16318v2
- Date: Mon, 28 Jul 2025 07:25:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:47.05005
- Title: M-SpecGene: Generalized Foundation Model for RGBT Multispectral Vision
- Title(参考訳): M-SpecGene:RGBTマルチスペクトルビジョンのための一般化基礎モデル
- Authors: Kailai Zhou, Fuqiang Yang, Shixian Wang, Bihan Wen, Chongde Zi, Linsen Chen, Qiu Shen, Xun Cao,
- Abstract要約: 一般化RGBTマルチスペクトル基盤モデル(M-SpecGene)を構築した。
M-SpecGeneは、大規模な広義データから自己教師付き方法でモダリティ不変表現を学習することを目的としている。
本稿では,2つのモードにまたがる情報密度を定量化するために,CMSS(Cross-Modality Structure Sparsity)メトリクスを導入する。
- 参考スコア(独自算出の注目度): 25.11628889054183
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: RGB-Thermal (RGBT) multispectral vision is essential for robust perception in complex environments. Most RGBT tasks follow a case-by-case research paradigm, relying on manually customized models to learn task-oriented representations. Nevertheless, this paradigm is inherently constrained by artificial inductive bias, modality bias, and data bottleneck. To address these limitations, we make the initial attempt to build a Generalized RGBT MultiSpectral foundation model (M-SpecGene), which aims to learn modality-invariant representations from large-scale broad data in a self-supervised manner. M-SpecGene provides new insights into multispectral fusion and integrates prior case-by-case studies into a unified paradigm. Considering the unique characteristic of information imbalance in RGBT data, we introduce the Cross-Modality Structural Sparsity (CMSS) metric to quantify the information density across two modalities. Then we develop the GMM-CMSS progressive masking strategy to facilitate a flexible, easy-to-hard, and object-centric pre-training process. Comprehensive experiments validate M-SpecGene's generalizability across eleven datasets for four RGBT downstream tasks. The code will be available at https://github.com/CalayZhou/M-SpecGene.
- Abstract(参考訳): 複雑な環境において、RGB-Thermal (RGBT) マルチスペクトルビジョンは堅牢な知覚に不可欠である。
ほとんどのRGBTタスクはケースバイケースの研究パラダイムに従っており、タスク指向の表現を学ぶために手動でカスタマイズされたモデルに依存している。
しかしながら、このパラダイムは本質的には、人工的帰納バイアス、モダリティバイアス、データボトルネックによって制約されている。
これらの制約に対処するため,我々は,大規模広帯域データからモダリティ不変表現を自己管理的に学習することを目的とした,一般化RGBT多スペクトル基盤モデル(M-SpecGene)の構築を試みている。
M-SpecGeneは、マルチスペクトル融合の新しい洞察を提供し、ケースバイケースの研究を統一パラダイムに統合する。
RGBTデータにおける情報不均衡の特徴を考慮し、2つのモードにわたる情報密度を定量化するために、Cross-Modality Structure Sparsity(CMSS)メトリクスを導入する。
次に,GMM-CMSSプログレッシブマスキング戦略を開発し,柔軟で,ハードで,オブジェクト中心の事前学習プロセスを容易にする。
総合的な実験により、M-SpecGeneは、11のデータセットにまたがって4つのRGBT下流タスクに対して一般化可能であることが検証された。
コードはhttps://github.com/CalayZhou/M-SpecGene.comから入手できる。
関連論文リスト
- UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation [52.12029029338604]
画像の理解と生成が可能な統合マルチモーダル大言語モデル(MLLM)であるUniGenを紹介する。
We study the full training pipeline of UniGen from a data-centric perspective, including multi-stage pre-training, supervised fine-tuning, direct preference optimization。
そこで我々は,テスト時間スケーリングのための新しいChain-of-Thought Verification(CoT-V)戦略を提案し,UniGenの画像生成品質を大幅に向上させる。
論文 参考訳(メタデータ) (2025-05-20T17:59:26Z) - From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons [85.99268361356832]
一般身体エージェント(GEA)にMLLMを適用するプロセスを紹介する。
GEAは、多体アクショントークンーザを通じて、さまざまなドメインにまたがって自分自身をグラウンド化できる単一の統一モデルである。
本研究は,汎用エージェント構築のためのクロスドメインデータとオンラインRLを用いたトレーニングの重要性を明らかにした。
論文 参考訳(メタデータ) (2024-12-11T15:06:25Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - RGBT Tracking via Multi-Adapter Network with Hierarchical Divergence
Loss [37.99375824040946]
本稿では,モダリティ共有型,モダリティ特化型,インスタンス認識型ターゲット表現学習を共同で行うための,新しいマルチアダプタネットワークを提案する。
2つのRGBT追跡ベンチマークデータセットの実験は、提案したトラッカーの優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-14T01:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。