論文の概要: RLBind: Adversarial-Invariant Cross-Modal Alignment for Unified Robust Embeddings
- arxiv url: http://arxiv.org/abs/2509.14383v1
- Date: Wed, 17 Sep 2025 19:35:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.956617
- Title: RLBind: Adversarial-Invariant Cross-Modal Alignment for Unified Robust Embeddings
- Title(参考訳): RLBind: 統一ロバスト埋め込みのための逆不変クロスモーダルアライメント
- Authors: Yuhong Lu,
- Abstract要約: 視覚、オーディオ、その他のセンサーを共有埋め込み空間に結合する統一されたマルチモーダルエンコーダは、ロボットの知覚と意思決定のための魅力的なビルディングブロックである。
RLBindは、2段階の対向不変なクロスモーダルアライメントフレームワークで、ロバストな統合埋め込みを実現する。
RLBindは、LanguageBindのバックボーンと標準の微調整ベースラインを、クリーンな精度とノルムバウンドな対向ロバスト性の両方で一貫して上回っている。
- 参考スコア(独自算出の注目度): 0.47097887983573417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified multi-modal encoders that bind vision, audio, and other sensors into a shared embedding space are attractive building blocks for robot perception and decision-making. However, on-robot deployment exposes the vision branch to adversarial and natural corruptions, making robustness a prerequisite for safety. Prior defenses typically align clean and adversarial features within CLIP-style encoders and overlook broader cross-modal correspondence, yielding modest gains and often degrading zero-shot transfer. We introduce RLBind, a two-stage adversarial-invariant cross-modal alignment framework for robust unified embeddings. Stage 1 performs unsupervised fine-tuning on clean-adversarial pairs to harden the visual encoder. Stage 2 leverages cross-modal correspondence by minimizing the discrepancy between clean/adversarial features and a text anchor, while enforcing class-wise distributional alignment across modalities. Extensive experiments on Image, Audio, Thermal, and Video data show that RLBind consistently outperforms the LanguageBind backbone and standard fine-tuning baselines in both clean accuracy and norm-bounded adversarial robustness. By improving resilience without sacrificing generalization, RLBind provides a practical path toward safer multi-sensor perception stacks for embodied robots in navigation, manipulation, and other autonomy settings.
- Abstract(参考訳): 視覚、オーディオ、その他のセンサーを共有埋め込み空間に結合する統一されたマルチモーダルエンコーダは、ロボットの知覚と意思決定のための魅力的なビルディングブロックである。
しかし、ロボット上での展開は、敵と自然の腐敗に対するビジョンブランチを露出させ、ロバスト性は安全性の前提条件となる。
以前の防御は、通常CLIPスタイルのエンコーダ内でクリーンで敵対的な特徴を整列し、より広範なクロスモーダル対応を見落とし、控えめな利得をもたらし、しばしばゼロショット転送を劣化させる。
RLBindは、2段階の対向不変なクロスモーダルアライメントフレームワークで、ロバストな統合埋め込みを実現する。
ステージ1は、視覚エンコーダを強化するために、クリーン対対の教師なしの微調整を行う。
ステージ2は、モダリティ間のクラスワイド分布アライメントを強制しながら、クリーン/アディショナル特徴とテキストアンカーの相違を最小化することで、モダリティ間の通信を利用する。
Image, Audio, Thermal, Videoデータによる大規模な実験によると、RLBindはLanguageBindのバックボーンと標準の微調整ベースラインをクリーンな精度とノルムバウンドの対向性の両方で一貫して上回っている。
一般化を犠牲にすることなくレジリエンスを向上させることにより、RLBindは、ナビゲーション、操作、その他の自律性設定において、具体化されたロボットに対して、より安全なマルチセンサーの知覚スタックへの実践的なパスを提供する。
関連論文リスト
- QuadKAN: KAN-Enhanced Quadruped Motion Control via End-to-End Reinforcement Learning [2.26464274357758]
我々は、強化学習(RL)による視覚誘導四足歩行制御に対処する。
Kolmogorov-Arnold Networks (KAN) でインスタンス化されたクロスモーダルポリシーである QuadKAN を提案する。
以上の結果から,QuadKANは最新技術(SOTA)ベースラインよりも一貫して高いリターン,より大きな距離,衝突の少ないことが分かる。
論文 参考訳(メタデータ) (2025-08-26T16:05:32Z) - SCING:Towards More Efficient and Robust Person Re-Identification through Selective Cross-modal Prompt Tuning [17.104905795008555]
Selective Cross-modal Prompt Tuning (SCING) というフレームワークを提案する。
我々のフレームワークは、効率的な推論を維持しながら重いアダプタを排除し、性能と計算オーバーヘッドの最適なトレードオフを実現する。
論文 参考訳(メタデータ) (2025-07-01T07:21:31Z) - Adversarial Robustness for Unified Multi-Modal Encoders via Efficient Calibration [12.763688592842717]
統合マルチモーダルエンコーダにおける敵の脆弱性の包括的研究について述べる。
音声や点雲などの視覚的でない入力は、特に脆弱である。
本手法は,エプシロン=4/255で最大47.3%の強靭性を向上する。
論文 参考訳(メタデータ) (2025-05-17T08:26:04Z) - Deep Positive-Negative Prototypes for Adversarially Robust Discriminative Prototypical Learning [0.24999074238880484]
本稿では,Adv-DPNP(Adversarially Training Deep Positive-Negative Prototypes)という新しいフレームワークを提案する。
Adv-DPNPは、差別的プロトタイプベースの学習と敵対訓練を統合している。
以上の結果から,Adv-DPNPは重大度および汚職種別の平均精度が最も高いことを示す。
論文 参考訳(メタデータ) (2025-04-03T15:42:58Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - CAFuser: Condition-Aware Multimodal Fusion for Robust Semantic Perception of Driving Scenes [56.52618054240197]
本研究では,運転シーンのロバストな意味認識のための条件対応型マルチモーダル融合手法を提案する。
CAFuserは、RGBカメラ入力を用いて環境条件を分類し、コンディショントークンを生成する。
我々のモデルは、特に悪条件シナリオにおいて、ロバスト性と精度を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-14T17:56:20Z) - Unpaired Adversarial Learning for Single Image Deraining with Rain-Space
Contrastive Constraints [61.40893559933964]
我々は,CDR-GAN という名称の GAN フレームワークにおいて,比較学習手法により,経験者の相互特性を探索する有効な非経験的 SID 手法を開発した。
提案手法は, 合成および実世界の両方のデータセットにおいて, 既存の非対効果のデラミニング手法に対して良好に動作し, 完全教師付きモデルや半教師付きモデルよりも優れている。
論文 参考訳(メタデータ) (2021-09-07T10:00:45Z) - Do Generative Models Know Disentanglement? Contrastive Learning is All
You Need [59.033559925639075]
本論文では,変数空間におけるコントラスト(DisCo)による非監視的,モデル非依存的手法を提案する。
DisCoは、GAN、VAE、およびフローを含む、事前訓練された非解離生成モデルに与えられた最先端の解離を達成します。
論文 参考訳(メタデータ) (2021-02-21T08:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。