論文の概要: M-SpecGene: Generalized Foundation Model for RGBT Multispectral Vision
- arxiv url: http://arxiv.org/abs/2507.16318v1
- Date: Tue, 22 Jul 2025 08:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.015257
- Title: M-SpecGene: Generalized Foundation Model for RGBT Multispectral Vision
- Title(参考訳): M-SpecGene:RGBTマルチスペクトルビジョンのための一般化基礎モデル
- Authors: Kailai Zhou, Fuqiang Yang, Shixian Wang, Bihan Wen, Chongde Zi, Linsen Chen, Qiu Shen, Xun Cao,
- Abstract要約: 一般化RGBTマルチスペクトル基盤モデル(M-SpecGene)を構築した。
M-SpecGeneは、大規模な広義データから自己教師付き方法でモダリティ不変表現を学習することを目的としている。
本稿では,2つのモードにまたがる情報密度を定量化するために,CMSS(Cross-Modality Structure Sparsity)メトリクスを導入する。
- 参考スコア(独自算出の注目度): 25.11628889054183
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: RGB-Thermal (RGBT) multispectral vision is essential for robust perception in complex environments. Most RGBT tasks follow a case-by-case research paradigm, relying on manually customized models to learn task-oriented representations. Nevertheless, this paradigm is inherently constrained by artificial inductive bias, modality bias, and data bottleneck. To address these limitations, we make the initial attempt to build a Generalized RGBT MultiSpectral foundation model (M-SpecGene), which aims to learn modality-invariant representations from large-scale broad data in a self-supervised manner. M-SpecGene provides new insights into multispectral fusion and integrates prior case-by-case studies into a unified paradigm. Considering the unique characteristic of information imbalance in RGBT data, we introduce the Cross-Modality Structural Sparsity (CMSS) metric to quantify the information density across two modalities. Then we develop the GMM-CMSS progressive masking strategy to facilitate a flexible, easy-to-hard, and object-centric pre-training process. Comprehensive experiments validate M-SpecGene's generalizability across eleven datasets for four RGBT downstream tasks. The code will be available at https://github.com/CalayZhou/M-SpecGene.
- Abstract(参考訳): 複雑な環境において、RGB-Thermal (RGBT) マルチスペクトルビジョンは堅牢な知覚に不可欠である。
ほとんどのRGBTタスクはケースバイケースの研究パラダイムに従っており、タスク指向の表現を学ぶために手動でカスタマイズされたモデルに依存している。
しかしながら、このパラダイムは本質的には、人工的帰納バイアス、モダリティバイアス、データボトルネックによって制約されている。
これらの制約に対処するため,我々は,大規模広帯域データからモダリティ不変表現を自己管理的に学習することを目的とした,一般化RGBT多スペクトル基盤モデル(M-SpecGene)の構築を試みている。
M-SpecGeneは、マルチスペクトル融合の新しい洞察を提供し、ケースバイケースの研究を統一パラダイムに統合する。
RGBTデータにおける情報不均衡の特徴を考慮し、2つのモードにわたる情報密度を定量化するために、Cross-Modality Structure Sparsity(CMSS)メトリクスを導入する。
次に,GMM-CMSSプログレッシブマスキング戦略を開発し,柔軟で,ハードで,オブジェクト中心の事前学習プロセスを容易にする。
総合的な実験により、M-SpecGeneは、11のデータセットにまたがって4つのRGBT下流タスクに対して一般化可能であることが検証された。
コードはhttps://github.com/CalayZhou/M-SpecGene.comから入手できる。
関連論文リスト
- Align the GAP: Prior-based Unified Multi-Task Remote Physiological Measurement Framework For Domain Generalization and Personalization [13.53570294343287]
MSSDtextbfG と TTPtextbfPriors (textbfGAP) をバイオメトリックスとリモート・フォトプレソグラフィーで統合したフレームワークを提案した。
MSSDGベンチマークを6つの公開データセット上でTTPAプロトコルに拡張し、完全なラベリングを備えた新しい実世界駆動データセットを導入しました。
論文 参考訳(メタデータ) (2025-06-19T09:17:30Z) - UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation [52.12029029338604]
画像の理解と生成が可能な統合マルチモーダル大言語モデル(MLLM)であるUniGenを紹介する。
We study the full training pipeline of UniGen from a data-centric perspective, including multi-stage pre-training, supervised fine-tuning, direct preference optimization。
そこで我々は,テスト時間スケーリングのための新しいChain-of-Thought Verification(CoT-V)戦略を提案し,UniGenの画像生成品質を大幅に向上させる。
論文 参考訳(メタデータ) (2025-05-20T17:59:26Z) - Observe-R1: Unlocking Reasoning Abilities of MLLMs with Dynamic Progressive Reinforcement Learning [3.364797975300393]
マルチモーダル大規模言語モデル(MLLM)の推論能力向上を目的とした新しいフレームワークであるObserve-R1を提案する。
我々は,RL学習におけるデータサンプルの難易度と難易度に応じて整理し,サンプル化したNeuraLadderデータセットを構築した。
Qwen2.5-VL-3B と Qwen2.5-VL-7B のニューララダーデータセットから得られた20kサンプルによる実験により、Observe-R1 は推論と一般的なベンチマークの両方において、より大きな推論モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-18T14:08:03Z) - From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons [85.99268361356832]
一般身体エージェント(GEA)にMLLMを適用するプロセスを紹介する。
GEAは、多体アクショントークンーザを通じて、さまざまなドメインにまたがって自分自身をグラウンド化できる単一の統一モデルである。
本研究は,汎用エージェント構築のためのクロスドメインデータとオンラインRLを用いたトレーニングの重要性を明らかにした。
論文 参考訳(メタデータ) (2024-12-11T15:06:25Z) - Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,ラベル付きデータに頼らず,複数のモードにまたがるインスタンスの認識を目的としたクロスモーダルなFew-Shot Learningタスクを提案する。
本研究では,人間が概念を抽象化し,一般化する方法をシミュレートし,ジェネレーティブトランスファー学習フレームワークを提案する。
GTLは、RGB-Sketch、RGB-赤外線、RGB-Depthの7つのマルチモーダルデータセットにまたがる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - RGBT Tracking via Multi-Adapter Network with Hierarchical Divergence
Loss [37.99375824040946]
本稿では,モダリティ共有型,モダリティ特化型,インスタンス認識型ターゲット表現学習を共同で行うための,新しいマルチアダプタネットワークを提案する。
2つのRGBT追跡ベンチマークデータセットの実験は、提案したトラッカーの優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-14T01:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。