論文の概要: PEPR: Privileged Event-based Predictive Regularization for Domain Generalization
- arxiv url: http://arxiv.org/abs/2602.04583v1
- Date: Wed, 04 Feb 2026 14:10:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.56386
- Title: PEPR: Privileged Event-based Predictive Regularization for Domain Generalization
- Title(参考訳): PEPR: ドメインの一般化のためのプリビジェンドイベントベースの予測正規化
- Authors: Gabriele Magrini, Federico Becattini, Niccolò Biondi, Pietro Pala,
- Abstract要約: 本稿では,厳密な単一モダリティRGBモデルをトレーニングするための特権情報(LUPI)パラダイムを用いた学習環境下でのクロスモーダルフレームワークを提案する。
イベントカメラを特権情報のソースとして利用し、トレーニング中にのみ利用可能です。
RGBエンコーダをPEPRでトレーニングし、イベントベースの潜伏特性を予測し、意味豊かさを犠牲にすることなくロバスト性を蒸留する。
- 参考スコア(独自算出の注目度): 19.185122873391517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks for visual perception are highly susceptible to domain shift, which poses a critical challenge for real-world deployment under conditions that differ from the training data. To address this domain generalization challenge, we propose a cross-modal framework under the learning using privileged information (LUPI) paradigm for training a robust, single-modality RGB model. We leverage event cameras as a source of privileged information, available only during training. The two modalities exhibit complementary characteristics: the RGB stream is semantically dense but domain-dependent, whereas the event stream is sparse yet more domain-invariant. Direct feature alignment between them is therefore suboptimal, as it forces the RGB encoder to mimic the sparse event representation, thereby losing semantic detail. To overcome this, we introduce Privileged Event-based Predictive Regularization (PEPR), which reframes LUPI as a predictive problem in a shared latent space. Instead of enforcing direct cross-modal alignment, we train the RGB encoder with PEPR to predict event-based latent features, distilling robustness without sacrificing semantic richness. The resulting standalone RGB model consistently improves robustness to day-to-night and other domain shifts, outperforming alignment-based baselines across object detection and semantic segmentation.
- Abstract(参考訳): 視覚知覚のためのディープニューラルネットワークは、ドメインシフトの影響を受けやすいため、トレーニングデータとは異なる条件下での実際のデプロイメントにおいて、重要な課題となる。
この領域の一般化問題に対処するため、我々は、堅牢で単一モードのRGBモデルをトレーニングするための特権情報(LUPI)パラダイムを用いた学習環境下でのクロスモーダルフレームワークを提案する。
イベントカメラを特権情報のソースとして利用し、トレーニング中にのみ利用可能です。
RGBストリームはセマンティックに密度が高いがドメインに依存しているのに対し、イベントストリームはわずかだがドメイン不変である。
したがって、RGBエンコーダはスパースイベント表現を模倣し、セマンティックディテールを失う。
これを解決するために,Privileged Event-based Predictive Regularization (PEPR)を導入する。
直接クロスモーダルアライメントを強制する代わりに、RGBエンコーダをPEPRでトレーニングし、イベントベースの潜伏特性を予測し、意味豊かさを犠牲にすることなくロバスト性を蒸留する。
結果として生じるスタンドアロンのRGBモデルは、オブジェクト検出とセマンティックセグメンテーションにおけるアライメントベースのベースラインよりも優れた、日々のドメインシフトや他のドメインシフトに対するロバストさを一貫して改善します。
関連論文リスト
- Decoupling Amplitude and Phase Attention in Frequency Domain for RGB-Event based Visual Object Tracking [51.31378940976401]
既存のRGB-Eventトラッキングアプローチでは、イベントカメラのユニークな利点を完全に活用できない。
本稿では,周波数領域の早期融合を実現する新しい追跡フレームワークを提案する。
FE108, FELT, COESOTなど, 広く使用されている3つのRGB-Event追跡ベンチマークデータセットの実験により, 提案手法の性能と効率を実証した。
論文 参考訳(メタデータ) (2026-01-03T01:10:17Z) - Re-coding for Uncertainties: Edge-awareness Semantic Concordance for Resilient Event-RGB Segmentation [18.450662919776757]
本稿では,エッジ認識型セマンティック・コンセンサス・フレームワークを提案する。
提案手法は,提案したDERS-XSに対して2.55% mIoUで最先端の手法である。
論文 参考訳(メタデータ) (2025-11-11T14:00:27Z) - Let Synthetic Data Shine: Domain Reassembly and Soft-Fusion for Single Domain Generalization [68.41367635546183]
単一ドメインの一般化は、単一のソースからのデータを使用して、さまざまなシナリオで一貫したパフォーマンスでモデルをトレーニングすることを目的としている。
モデル一般化を改善するために合成データを活用した学習フレームワークDRSFを提案する。
論文 参考訳(メタデータ) (2025-03-17T18:08:03Z) - Exploiting Aggregation and Segregation of Representations for Domain Adaptive Human Pose Estimation [50.31351006532924]
人間のポーズ推定(HPE)は最近、モーション分析、バーチャルリアリティー、ヘルスケア等に広く応用されているため、注目を集めている。
時間と労働集約的なアノテーションのために、ラベル付き現実世界のデータセットが不足している。
本稿では,ドメイン適応型人間のポーズ推定のための表現集約と分離を両立させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-29T17:59:45Z) - VELoRA: A Low-Rank Adaptation Approach for Efficient RGB-Event based Recognition [54.27379947727035]
本稿では,RGBイベントに基づく分類のために,事前学習した基盤視覚モデルに適応するための新しいPEFT戦略を提案する。
また、2重モードのフレーム差は、フレーム差バックボーンネットワークを介してモーションキューをキャプチャすると考えられている。
ソースコードと事前トレーニングされたモデルはurlhttps://github.com/Event-AHU/VELoRAでリリースされる。
論文 参考訳(メタデータ) (2024-12-28T07:38:23Z) - Sim-to-Real Grasp Detection with Global-to-Local RGB-D Adaptation [19.384129689848294]
本稿では,RGB-Dグリップ検出のシム・ツー・リアル問題に着目し,ドメイン適応問題として定式化する。
本稿では,RGBと深度データにおけるハイブリッドドメインギャップに対処し,マルチモーダルな特徴アライメントが不十分なグローバル・ローカルな手法を提案する。
論文 参考訳(メタデータ) (2024-03-18T06:42:38Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Memory Regulation and Alignment toward Generalizer RGB-Infrared Person [24.2142124801929]
RGB-IR ReIDは、常に差別的機能を必要としており、見受けられるクラスの過度な機能感度をもたらす。
本稿では,この問題を解決するために,新しい多粒性メモリ制御およびアライメントモジュール(MG-MRA)を提案する。
本手法は,授業の識別的特徴に関するモデルの過度な信頼を緩和する。
論文 参考訳(メタデータ) (2021-09-18T05:55:06Z) - Multi-domain Collaborative Feature Representation for Robust Visual
Object Tracking [32.760681454334765]
本稿では,フレームドメインとイベントドメインの相補的特徴を効果的に表現し,活用することに焦点を当てる。
2つのドメインの特徴を学習するために、スパイキングニューラルネットワークに基づくイベントのためのユニークなエクストラクタ(UEE)を利用する。
標準RGBベンチマークと実イベント追跡データセットの実験は、提案手法の有効性を実証している。
論文 参考訳(メタデータ) (2021-08-10T09:01:42Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。