論文の概要: Latent Space Guided Scenario Sampling for Multimodal Segmentation Under Missing Modalities
- arxiv url: http://arxiv.org/abs/2605.20372v1
- Date: Tue, 19 May 2026 18:23:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.318357
- Title: Latent Space Guided Scenario Sampling for Multimodal Segmentation Under Missing Modalities
- Title(参考訳): 欠損モード下でのマルチモーダルセグメンテーションのための潜時空間誘導シナリオサンプリング
- Authors: Irem Ulku, Ö. Özgür Tanrıöver, Erdem Akagündüz,
- Abstract要約: 現実世界のリモートセンシングアプリケーションでは、センサーの故障、大気条件の悪さ、データ取得の問題により、1つ以上のモダリティが利用できない可能性がある。
本研究では,事前学習された潜在空間から直接シナリオサンプリング分布を学習する新しい学習手法を提案する。
我々は,この戦略を,CBC-SLP,CBC,CMXバックボーンを用いて,DSTL,Potsdam,Hunanの3つのリモートセンシング画像セット上で評価した。
- 参考スコア(独自算出の注目度): 5.097809301149341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal semantic segmentation benefits remote sensing analysis by combining complementary information from different sensor modalities. In real-world remote sensing applications, one or more modalities may be unavailable due to sensor failures, adverse atmospheric conditions, or data acquisition problems. Even with pretrained multimodal representations and existing fine-tuning or adaptation strategies, performance may remain limited because all modality availability scenarios are typically treated as equally informative during training. In this paper, we propose a novel training strategy that learns a scenario sampling distribution directly from the pretrained latent space. Instead of relying on uniform random modality dropout, the proposed method guides fine-tuning toward more informative modality availability scenarios. More specifically, we quantify the effect of each scenario independently based on the distortion it induces in the shared latent representation. We then capture scenario relations using a radial basis function kernel and derive refined scenario scores through a regularized kernel smoothing. These scores are then converted into a probability distribution during scenario sampling for fine-tuning. We evaluate this strategy on three remote sensing image sets, namely DSTL, Potsdam, and Hunan, using CBC-SLP, CBC, and CMX backbones. The experimental results with different image sets and backbones show that our method outperforms standard fine-tuning and LoRA-based adaptation. These findings suggest that the pretrained latent representation can serve as an effective basis for sampling during missing modality fine-tuning. Code is available at https://github.com/iremulku/Latent-Space-Guided-Scenario-Sampling
- Abstract(参考訳): マルチモーダルセマンティックセグメンテーションは、異なるセンサモードの相補的な情報を組み合わせることで、リモートセンシング分析の恩恵を受ける。
現実世界のリモートセンシングアプリケーションでは、センサーの故障、大気条件の悪さ、データ取得の問題により、1つ以上のモダリティが利用できない可能性がある。
事前訓練されたマルチモーダル表現や既存の微調整や適応戦略であっても、すべてのモダリティの可用性シナリオはトレーニング中に同様に情報的として扱われるため、パフォーマンスは制限される可能性がある。
本稿では,事前学習された潜在空間から直接シナリオサンプリング分布を学習する新しい学習手法を提案する。
均一なランダムなモダリティ・ドロップアウトに頼る代わりに、提案手法はより情報的なモダリティ・アベイラビリティ・シナリオに向けて微調整を行う。
より具体的には、共有潜在表現において引き起こされる歪みに基づいて、各シナリオの効果を独立に定量化する。
次に、ラジアル基底関数カーネルを用いてシナリオ関係をキャプチャし、正規化されたカーネル平滑化を通して洗練されたシナリオスコアを導出する。
これらのスコアは、微調整のためのシナリオサンプリング中に確率分布に変換される。
我々は,この戦略を,CBC-SLP,CBC,CMXバックボーンを用いて,DSTL,Potsdam,Hunanの3つのリモートセンシング画像セット上で評価した。
画像集合とバックボーンの異なる実験結果から,本手法は標準的な微調整やLORAに基づく適応よりも優れていた。
これらの結果から,事前学習した潜伏表現は,モダリティの微調整を欠いた場合のサンプリングに有効な基礎となる可能性が示唆された。
コードはhttps://github.com/iremulku/Latent-Space-Guided-Scenario-Samplingで入手できる。
関連論文リスト
- Towards Generalizable Deepfake Detection via Real Distribution Bias Correction [62.89674593681203]
本稿では,2つの主要コンポーネントからなるReal Distribution Bias Correction(RDBC)フレームワークを紹介する。
RDBCは、ドメイン内およびクロスドメインのディープフェイク検出の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-14T16:11:00Z) - An LLM-driven Scenario Generation Pipeline Using an Extended Scenic DSL for Autonomous Driving Safety Validation [4.602386383455713]
現実の事故報告は、自律運転システムのシナリオベースのテストに有用である。
現在の手法では、このマルチモーダルデータを正確に実行可能なシミュレーションシナリオに効果的に変換することはできない。
本稿では,大規模言語モデルと確率的中間表現を用いたスケーラブルで検証可能なパイプラインを提案する。
論文 参考訳(メタデータ) (2026-02-24T07:44:26Z) - Exploring Semantic Clustering and Similarity Search for Heterogeneous Traffic Scenario Graph [41.2584175136191]
まず,交通シナリオを表現するための表現的かつ柔軟な異種時間グラフモデルを提案する。
次に,シナリオグラフに対する普遍的な埋め込み空間を学習するための自己教師付き手法を提案する。
特に、ブートストラップに基づくアプローチとともに、対照的な学習を実装し、シナリオ空間に対するそれらの適合性を評価する。
論文 参考訳(メタデータ) (2025-07-07T15:10:03Z) - Towards Predicting Any Human Trajectory In Context [20.810620293371027]
TrajICLは、歩行者軌道予測のためのインコンテキスト学習(ICL)フレームワークである。
推論時にシナリオ固有のデータを微調整することなく適応できる。
我々は、予測能力を高めるために、大規模な合成データセットでモデルをトレーニングする。
論文 参考訳(メタデータ) (2025-06-01T07:18:47Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - XTrack: Multimodal Training Boosts RGB-X Video Object Trackers [88.72203975896558]
マルチモーダルセンシングから得られる知識を効果的に共有することが重要である。
異なるモダリティにまたがる類似のサンプルは、他のものよりも多くの知識を共有できる。
提案手法は,現在のSOTAよりも平均+3%精度が向上したRGB-Xトラッカーである。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - Sample and Predict Your Latent: Modality-free Sequential Disentanglement
via Contrastive Estimation [2.7759072740347017]
外部信号のないコントラスト推定に基づく自己教師付きシーケンシャル・アンタングルメント・フレームワークを提案する。
実際に,データのセマンティックに類似し,異種なビューに対して,統一的で効率的かつ容易にサンプリングできる手法を提案する。
提案手法は,既存の手法と比較して最先端の結果を示す。
論文 参考訳(メタデータ) (2023-05-25T10:50:30Z) - Generalized Differentiable RANSAC [95.95627475224231]
$nabla$-RANSACは、ランダム化された堅牢な推定パイプライン全体を学ぶことができる、微分可能なRANSACである。
$nabla$-RANSACは、精度という点では最先端のシステムよりも優れているが、精度は低い。
論文 参考訳(メタデータ) (2022-12-26T15:13:13Z) - Simpler Certified Radius Maximization by Propagating Covariances [39.851641822878996]
Cifar-10、ImageNet、Places365などのデータセットの認定半径を最大化するアルゴリズムを示します。
これらの基準を満たすことで、データセットの認定半径を適度な深さで最大化し、全体の精度を小さくするアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2021-04-13T01:38:36Z) - SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。
エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文 参考訳(メタデータ) (2020-07-26T08:17:10Z) - Spatially Adaptive Inference with Stochastic Feature Sampling and
Interpolation [72.40827239394565]
スパースサンプリングされた場所のみの機能を計算することを提案する。
次に、効率的な手順で特徴写像を密に再構築する。
提案したネットワークは、様々なコンピュータビジョンタスクの精度を維持しながら、かなりの計算を省くために実験的に示されている。
論文 参考訳(メタデータ) (2020-03-19T15:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。