論文の概要: UniTriGen: Unified Triplet Generation of Aligned Visible-Infrared-Label for Few-Shot RGB-T Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2605.14626v1
- Date: Thu, 14 May 2026 09:39:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.757192
- Title: UniTriGen: Unified Triplet Generation of Aligned Visible-Infrared-Label for Few-Shot RGB-T Semantic Segmentation
- Title(参考訳): UniTriGen:Few-Shot RGB-Tセマンティックセグメンテーションのためのアライメント可視赤外ラベルの統一トリプルト生成
- Authors: Ping Zhou, Haoyu Wang, Mengmeng Zheng, Lei Zhang, Wei Wei, Chen Ding, Fei Zhou,
- Abstract要約: RGB-Tセマンティックセグメンテーションは、厳密なVIS-IR-Label三重項を必要とするが、そのような整列三重項データは現実のシナリオでは少ないことが多い。
空間整合性,意味整合性,モダリティ相補的なVIS-IR-Label三重項を直接生成する統合三重項生成フレームワークであるUniTriGenを提案する。
実験により、UniTriGenは、限られた実ペアデータから高品質な三重項を生成し、様々なRGB-Tセマンティックセマンティックセグメンテーションモデルで一貫した性能改善を実現する。
- 参考スコア(独自算出の注目度): 14.575592108636028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RGB-T semantic segmentation requires strictly aligned VIS-IR-Label triplets; however, such aligned triplet data are often scarce in real-world scenarios. Existing generative augmentation methods usually adopt cascaded generation paradigms, decomposing joint triplet generation into local conditional processes. As a result, consistency among VIS, IR, and Label in spatial structure, semantic content, and cross-modal details cannot be reliably maintained. To address this issue, we propose UniTriGen, a unified triplet generation framework that directly generates spatially aligned, semantically consistent, and modality complementary VIS-IR-Label triplets under the guidance of text prompts. UniTriGen first introduces a unified triplet generation mechanism, where VIS, IR, and Label are jointly encoded into a shared latent space and modeled with a diffusion process to enforce global cross-modal consistency. Lightweight modality-specific residual adapters are further integrated into this mechanism to accommodate modality-specific imaging characteristics and output formats. To mitigate generation bias caused by imbalanced scene and class distributions in limited paired triplets, UniTriGen also employs a scene-balanced and class-aware few-shot sampling strategy, which induces a more balanced sampling distribution and enhances the scene and class diversity of generated triplets. Experiments show that UniTriGen generates high-quality aligned triplets from limited real paired data, thereby achieving consistent performance improvements across various RGB-T semantic segmentation models.
- Abstract(参考訳): RGB-Tセマンティックセグメンテーションは、厳密なVIS-IR-Label三重項を必要とするが、そのような整列三重項データは現実のシナリオでは少ないことが多い。
既存の生成増強法は通常、カスケード生成パラダイムを採用し、結合三重項生成を局所的な条件過程に分解する。
その結果、空間構造、セマンティックコンテンツ、およびクロスモーダルディテールにおけるVIS、IR、ラベル間の一貫性は確実に維持できない。
この問題を解決するために,テキストプロンプトの指導のもと,空間的整合性,意味的整合性,モダリティの相補的なVIS-IR-Label三重項を直接生成する統合三重項生成フレームワークUniTriGenを提案する。
UniTriGenはまず統合三重項生成機構を導入し、VIS, IR, Labelは共有潜在空間に共同で符号化され、拡散過程でモデル化され、グローバルなクロスモーダル整合を強制する。
軽量のモダリティ特化残像アダプタは、この機構にさらに統合され、モダリティ特化画像特性と出力形式に適合する。
限定された三重項におけるシーンバランスの不均衡やクラス分布による生成バイアスを軽減するため、UniTriGenでは、よりバランスの取れたサンプリング分布を誘導し、生成された三重項のシーンとクラスの多様性を高める、シーンバランスとクラス対応のショットサンプリング戦略も採用している。
実験により、UniTriGenは、限られた実ペアデータから高品質な三重項を生成し、様々なRGB-Tセマンティックセマンティックセグメンテーションモデルで一貫した性能改善を実現する。
関連論文リスト
- Multi-Feature Fusion Approach for Generative AI Images Detection [3.16770435670322]
3つの異なる空間からの相補的手がかりを組み合わせた多機能融合フレームワークを検討・評価する。
個々の特徴空間は、異なるジェネレータ間で大きな性能変動を示すことを示す。
最先端の手法と比較して、提案するフレームワークは、評価されたすべてのデータセットに対して一貫してパフォーマンスを向上する。
論文 参考訳(メタデータ) (2026-03-31T14:25:10Z) - FAST3DIS: Feed-forward Anchored Scene Transformer for 3D Instance Segmentation [15.271467111162714]
FAST3DISは、ホット後のクラスタリングを効果的にバイパスするエンドツーエンドのアプローチである。
本稿では,基礎的な奥行きバックボーン上に構築された3Dアンコール型クエリベースのTransformerアーキテクチャを提案する。
複雑な屋内3次元データセットを用いた実験により,本手法が競合セグメンテーション精度を実現することを示す。
論文 参考訳(メタデータ) (2026-03-27T00:45:31Z) - CSMCIR: CoT-Enhanced Symmetric Alignment with Memory Bank for Composed Image Retrieval [54.15776146365823]
Composed Image Retrieval (CIR)では、ユーザーは参照画像と操作テキストの両方を使用してターゲットイメージを検索できる。
CSMCIRは3つの相乗的コンポーネントを通して効率的なクエリターゲットアライメントを実現する統一表現フレームワークである。
論文 参考訳(メタデータ) (2026-01-07T09:21:38Z) - TripleFDS: Triple Feature Disentanglement and Synthesis for Scene Text Editing [56.73004765030206]
STE(Scene Text Editing)は、視覚的一貫性を維持しながら、画像中のテキストを自然に修正することを目的としている。
本稿では,モジュラー属性をアンタングル化したSTEのための新しいフレームワークであるTripleFDSを提案する。
TripleFDSは、メインストリームのSTEベンチマークで最先端の画像忠実度(SSIM 44.54)とテキスト精度(ACC 93.58%)を達成する。
論文 参考訳(メタデータ) (2025-11-17T14:15:03Z) - H3R: Hybrid Multi-view Correspondence for Generalizable 3D Reconstruction [39.22287224290769]
H3Rは、潜在融合と注目に基づく機能集約を統合するハイブリッドフレームワークである。
両パラダイムを統合することで,既存手法よりも2$times$高速に収束しながら,一般化が促進される。
本手法は,ロバストなクロスデータセットの一般化を実証しながら,可変数および高分解能な入力ビューをサポートする。
論文 参考訳(メタデータ) (2025-08-05T05:56:30Z) - SeMv-3D: Towards Concurrency of Semantic and Multi-view Consistency in General Text-to-3D Generation [122.47961178994456]
SeMv-3Dは、GT23D生成におけるセマンティックアライメントとマルチビュー一貫性を協調的に強化する新しいフレームワークである。
本稿では,TPL(Triplane Prior Learning)について紹介する。
我々はまた、一貫した任意のビュー合成を可能にする、三葉飛行機(SAT)における事前ベースセマンティックアライニング(Semantic Aligning)を提案する。
論文 参考訳(メタデータ) (2024-10-10T07:02:06Z) - Exploring Homogeneous and Heterogeneous Consistent Label Associations for Unsupervised Visible-Infrared Person ReID [57.500045584556794]
均質かつ不均一なインスタンスレベルの構造を同時に説明できるModality-Unified Label Transfer (MULT) モジュールを導入する。
提案したMULTは、生成した擬似ラベルがモダリティ間の整合性を維持しつつ、モダリティ内の構造的整合性を維持することを保証する。
実験の結果,提案手法は既存のUSL-VI-ReID法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-01T15:33:17Z) - Type-enhanced Ensemble Triple Representation via Triple-aware Attention
for Cross-lingual Entity Alignment [12.894775396801958]
TTEA -- Triple-aware Attention for Cross-lingual Entityアライメントによる型付きアンサンブルトリプル表現を提案する。
我々のフレームワークは三重要素の役割の多様性をモデル化するために三重要素の強化を利用する。
我々のフレームワークは、3つの実世界の言語間データセットの実験において最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2023-05-02T15:56:11Z) - DCN-T: Dual Context Network with Transformer for Hyperspectral Image
Classification [109.09061514799413]
複雑な撮像条件による空間変動のため,HSI分類は困難である。
本稿では,HSIを高品質な三スペクトル画像に変換する三スペクトル画像生成パイプラインを提案する。
提案手法は,HSI分類における最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-04-19T18:32:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。