論文の概要: IRGPT: Understanding Real-world Infrared Image with Bi-cross-modal Curriculum on Large-scale Benchmark
- arxiv url: http://arxiv.org/abs/2507.14449v1
- Date: Sat, 19 Jul 2025 02:53:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.89315
- Title: IRGPT: Understanding Real-world Infrared Image with Bi-cross-modal Curriculum on Large-scale Benchmark
- Title(参考訳): IRGPT: 大規模ベンチマークによる双方向計算による実世界赤外画像の理解
- Authors: Zhe Cao, Jin Zhang, Ruiheng Zhang,
- Abstract要約: 実世界の赤外線画像のためのマルチモーダル大規模言語モデルIRGPTを提案する。
提案したIR-TDデータセットは、精密に手作りされたテキストとペアリングされた実際の赤外線画像を含む。
IRGPTは大規模モデルと比較して最先端の性能を実現している。
- 参考スコア(独自算出の注目度): 6.171775609352536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world infrared imagery presents unique challenges for vision-language models due to the scarcity of aligned text data and domain-specific characteristics. Although existing methods have advanced the field, their reliance on synthetic infrared images generated through style transfer from visible images, which limits their ability to capture the unique characteristics of the infrared modality. To address this, we propose IRGPT, the first multi-modal large language model for real-world infrared images, built upon a large-scale InfraRed-Text Dataset (IR-TD) comprising over 260K authentic image-text pairs. The proposed IR-TD dataset contains real infrared images paired with meticulously handcrafted texts, where the initial drafts originated from two complementary processes: (1) LLM-generated descriptions of visible images, and (2) rule-based descriptions of annotations. Furthermore, we introduce a bi-cross-modal curriculum transfer learning strategy that systematically transfers knowledge from visible to infrared domains by considering the difficulty scores of both infrared-visible and infrared-text. Evaluated on a benchmark of 9 tasks (e.g., recognition, grounding), IRGPT achieves state-of-the-art performance even compared with larger-scale models.
- Abstract(参考訳): 実世界の赤外線画像は、一致したテキストデータの不足とドメイン固有の特徴のため、視覚言語モデルに固有の課題を示す。
既存の手法は分野を進歩させてきたが、可視画像からのスタイル転送によって生成された合成赤外線画像に依存するため、赤外線モダリティのユニークな特徴を捉える能力は制限されている。
そこで本研究では,260万以上の画像テキストペアからなる大規模赤外線テキストデータセット(IR-TD)上に構築された,実世界の赤外線画像のための最初のマルチモーダルな大規模言語モデルIRGPTを提案する。
提案したIR-TDデータセットは,(1)可視像のLCM生成記述と(2)規則に基づくアノテーション記述の2つの相補的プロセスから,手作りの細かなテキストと組み合わせた実際の赤外線画像を含む。
さらに、可視領域から赤外線領域へ知識を体系的に伝達する双方向のカリキュラム変換学習戦略を導入する。
IRGPTは9つのタスク(例えば認識、グラウンド)のベンチマークに基づいて評価され、大規模モデルと比較しても最先端のパフォーマンスを達成する。
関連論文リスト
- MTSIC: Multi-stage Transformer-based GAN for Spectral Infrared Image Colorization [26.33768545616346]
既存のカラー化手法は、スペクトル情報に制限があり、特徴抽出能力が不十分なシングルバンド画像に依存している。
本稿では、スペクトル情報を統合し、赤外線画像のカラー化を強化するために、GAN(Generative Adversarial Network)ベースのフレームワークを提案する。
実験の結果,提案手法は従来の手法よりも優れ,赤外線画像の視覚的品質を効果的に向上させることがわかった。
論文 参考訳(メタデータ) (2025-06-21T01:42:25Z) - TeSG: Textual Semantic Guidance for Infrared and Visible Image Fusion [55.34830989105704]
Infrared and visible image fusion (IVF) は、画像モダリティの相補的な情報を組み合わせることを目的としている。
テキスト意味論は,マスクの意味レベルとテキスト意味レベルという2つのレベルで導入する。
画像合成プロセスのガイドとなる赤外線・可視画像融合のためのテクスチュアル・セマンティック・ガイダンスを提案する。
論文 参考訳(メタデータ) (2025-06-20T03:53:07Z) - DiffV2IR: Visible-to-Infrared Diffusion Model via Vision-Language Understanding [43.85632218045282]
DiffV2IRは、プログレッシブラーニングモジュール(PLM)と視覚言語理解モジュール(VLUM)の2つの要素からなる画像翻訳のための新しいフレームワークである。
PLMは、多段階知識学習を活用して、フルレンジからターゲット波長への赤外線遷移を実現する適応拡散モデルアーキテクチャを備えている。
VLUMにはビジョン・ランゲージ理解が組み込まれており、様々な環境条件下で、50万枚の赤外線画像を含む大きな赤外線データセットIR-500Kも収集している。
論文 参考訳(メタデータ) (2025-03-24T17:58:09Z) - Multi-Domain Biometric Recognition using Body Embeddings [51.36007967653781]
身体埋め込みは中波長赤外線(MWIR)領域と長波長赤外線(LWIR)領域の顔埋め込みよりも優れていた。
我々は、IJB-MDFデータセット上でのベンチマーク結果を確立するために、ビジョントランスフォーマーアーキテクチャを活用している。
また, クロスエントロピーとトリプルト損失の単純な組み合わせで, VISデータにのみ事前訓練された体モデルを微調整することで, 最先端のmAPスコアが得られることを示す。
論文 参考訳(メタデータ) (2025-03-13T22:38:18Z) - Text-IRSTD: Leveraging Semantic Text to Promote Infrared Small Target Detection in Complex Scenes [3.399048100638418]
我々は,テキストIRSTDと呼ばれる赤外線小ターゲット検出のためのセマンティックテキストを活用した新しいアプローチを提案する。
テキストと画像間の情報融合を容易にするために, プログレッシブ・モーダル・セマンティック・インタラクション・デコーダ (PCSID) を提案する。
さらに,FZDTと呼ばれるファジィセマンティックテキストアノテーションを用いて,異なるシナリオの2,755個の赤外線画像からなる新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2025-03-10T12:33:07Z) - Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - Contourlet Refinement Gate Framework for Thermal Spectrum Distribution Regularized Infrared Image Super-Resolution [54.293362972473595]
画像超解像(SR)は、高解像度(HR)画像を低解像度(LR)画像から再構成することを目的としている。
SRタスクに対処する現在のアプローチは、RGB画像の特徴を抽出するか、同様の劣化パターンを仮定するものである。
スペクトル分布の忠実さを保ちつつ、赤外線変調特性を復元するコントゥーレット改質ゲートフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-19T14:24:03Z) - GAN-HA: A generative adversarial network with a novel heterogeneous dual-discriminator network and a new attention-based fusion strategy for infrared and visible image fusion [0.1160897408844138]
赤外線・可視画像融合(IVIF)は、可視画像からテクスチャの詳細を統合しつつ、赤外線画像からの熱放射情報を保存することを目的としている。
既存の二重識別器生成敵ネットワーク(GAN)は、2つの構造的に同一の識別器を学習に頼っていることが多い。
本稿では,異種二重識別器ネットワークと注意に基づく融合戦略を備えた新しいGANを提案する。
論文 参考訳(メタデータ) (2024-04-24T17:06:52Z) - Unsupervised Misaligned Infrared and Visible Image Fusion via
Cross-Modality Image Generation and Registration [59.02821429555375]
我々は、教師なし不整合赤外線と可視画像融合のための頑健な相互モダリティ生成登録パラダイムを提案する。
登録された赤外線画像と可視画像とを融合させるため,IFM (Feature Interaction Fusion Module) を提案する。
論文 参考訳(メタデータ) (2022-05-24T07:51:57Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。