論文の概要: RLBind: Adversarial-Invariant Cross-Modal Alignment for Unified Robust Embeddings
- arxiv url: http://arxiv.org/abs/2509.14383v1
- Date: Wed, 17 Sep 2025 19:35:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.956617
- Title: RLBind: Adversarial-Invariant Cross-Modal Alignment for Unified Robust Embeddings
- Title(参考訳): RLBind: 統一ロバスト埋め込みのための逆不変クロスモーダルアライメント
- Authors: Yuhong Lu,
- Abstract要約: 視覚、オーディオ、その他のセンサーを共有埋め込み空間に結合する統一されたマルチモーダルエンコーダは、ロボットの知覚と意思決定のための魅力的なビルディングブロックである。
RLBindは、2段階の対向不変なクロスモーダルアライメントフレームワークで、ロバストな統合埋め込みを実現する。
RLBindは、LanguageBindのバックボーンと標準の微調整ベースラインを、クリーンな精度とノルムバウンドな対向ロバスト性の両方で一貫して上回っている。
- 参考スコア(独自算出の注目度): 0.47097887983573417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified multi-modal encoders that bind vision, audio, and other sensors into a shared embedding space are attractive building blocks for robot perception and decision-making. However, on-robot deployment exposes the vision branch to adversarial and natural corruptions, making robustness a prerequisite for safety. Prior defenses typically align clean and adversarial features within CLIP-style encoders and overlook broader cross-modal correspondence, yielding modest gains and often degrading zero-shot transfer. We introduce RLBind, a two-stage adversarial-invariant cross-modal alignment framework for robust unified embeddings. Stage 1 performs unsupervised fine-tuning on clean-adversarial pairs to harden the visual encoder. Stage 2 leverages cross-modal correspondence by minimizing the discrepancy between clean/adversarial features and a text anchor, while enforcing class-wise distributional alignment across modalities. Extensive experiments on Image, Audio, Thermal, and Video data show that RLBind consistently outperforms the LanguageBind backbone and standard fine-tuning baselines in both clean accuracy and norm-bounded adversarial robustness. By improving resilience without sacrificing generalization, RLBind provides a practical path toward safer multi-sensor perception stacks for embodied robots in navigation, manipulation, and other autonomy settings.
- Abstract(参考訳): 視覚、オーディオ、その他のセンサーを共有埋め込み空間に結合する統一されたマルチモーダルエンコーダは、ロボットの知覚と意思決定のための魅力的なビルディングブロックである。
しかし、ロボット上での展開は、敵と自然の腐敗に対するビジョンブランチを露出させ、ロバスト性は安全性の前提条件となる。
以前の防御は、通常CLIPスタイルのエンコーダ内でクリーンで敵対的な特徴を整列し、より広範なクロスモーダル対応を見落とし、控えめな利得をもたらし、しばしばゼロショット転送を劣化させる。
RLBindは、2段階の対向不変なクロスモーダルアライメントフレームワークで、ロバストな統合埋め込みを実現する。
ステージ1は、視覚エンコーダを強化するために、クリーン対対の教師なしの微調整を行う。
ステージ2は、モダリティ間のクラスワイド分布アライメントを強制しながら、クリーン/アディショナル特徴とテキストアンカーの相違を最小化することで、モダリティ間の通信を利用する。
Image, Audio, Thermal, Videoデータによる大規模な実験によると、RLBindはLanguageBindのバックボーンと標準の微調整ベースラインをクリーンな精度とノルムバウンドの対向性の両方で一貫して上回っている。
一般化を犠牲にすることなくレジリエンスを向上させることにより、RLBindは、ナビゲーション、操作、その他の自律性設定において、具体化されたロボットに対して、より安全なマルチセンサーの知覚スタックへの実践的なパスを提供する。
関連論文リスト
- OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。
分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。
本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文 参考訳(メタデータ) (2026-02-06T16:39:10Z) - OmniDrive-R1: Reinforcement-driven Interleaved Multi-modal Chain-of-Thought for Trustworthy Vision-Language Autonomous Driving [11.793091014248025]
我々は自動運転用に設計されたエンドツーエンドのVLMフレームワークであるOmniDrive-R1を紹介する。
私たちの中心となるイノベーションは、強化駆動のビジュアルグラウンド機能です。
この機能は、純粋な2段階強化学習訓練パイプラインとClip-GRPOアルゴリズムによって実現されている。
論文 参考訳(メタデータ) (2025-12-16T03:19:28Z) - $\mathcal{E}_0$: Enhancing Generalization and Fine-Grained Control in VLA Models via Continuized Discrete Diffusion [65.77755100137728]
本稿では、量子化されたアクショントークンを反復的にデノケーションするアクション生成を定式化する、連続的な離散拡散フレームワークであるE0を紹介する。
E0は14の多様な環境において最先端のパフォーマンスを達成し、平均して10.7%強のベースラインを達成している。
論文 参考訳(メタデータ) (2025-11-26T16:14:20Z) - When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models [81.7618160628979]
VLA(Vision-Language-Action)モデルは敵の攻撃に弱いが、普遍的かつ移動可能な攻撃は未発見のままである。
UPA-RFAS(Universal Patch Attack via Robust Feature, Attention, and Semantics)は、単一の物理的パッチを共有機能空間で学習する統合フレームワークである。
多様なVLAモデル、操作スイート、物理実行の実験は、UPA-RFASがモデル、タスク、視点を一貫して移行していることを示している。
論文 参考訳(メタデータ) (2025-11-26T09:16:32Z) - Enhancing CLIP Robustness via Cross-Modality Alignment [54.01929554563447]
視覚言語モデルのための最適なトランスポートベースフレームワークであるクロスモダリティアライメントを提案する。
COLAは、グローバルな画像テキストアライメントと特徴空間における局所的な構造的一貫性を復元する。
COLAはトレーニングフリーで、既存の微調整モデルと互換性がある。
論文 参考訳(メタデータ) (2025-10-28T03:47:44Z) - DROID: Dual Representation for Out-of-Scope Intent Detection [4.768906732056304]
DROIDは2つの補完的なエンコーダ(Universal Sentence Detection (USE) と、ドメイン固有のコンテキスト区別のためのTransformerベースのDenoising Autoencoder (TSDAE)を組み合わせたコンパクトなフレームワークである。
この結果から, 単純なキャリブレーションによる二重エンコーダ表現は, ニューラルダイアログシステムに対して, 堅牢でスケーラブルで信頼性の高いOOS検出をもたらすことが示唆された。
論文 参考訳(メタデータ) (2025-10-15T21:29:52Z) - DRCP: Diffusion on Reinforced Cooperative Perception for Perceiving Beyond Limits [11.34052678290095]
Diffusion on Reinforced Cooperative Perception (DRCP)は動的運転環境における問題に対処するために設計されたリアルタイムデプロイ可能なフレームワークである。
提案システムは,モバイルプラットフォーム上でのリアルタイムなパフォーマンスを実現するとともに,困難な条件下でのロバスト性を大幅に向上させる。
論文 参考訳(メタデータ) (2025-09-29T15:13:03Z) - QuadKAN: KAN-Enhanced Quadruped Motion Control via End-to-End Reinforcement Learning [2.26464274357758]
我々は、強化学習(RL)による視覚誘導四足歩行制御に対処する。
Kolmogorov-Arnold Networks (KAN) でインスタンス化されたクロスモーダルポリシーである QuadKAN を提案する。
以上の結果から,QuadKANは最新技術(SOTA)ベースラインよりも一貫して高いリターン,より大きな距離,衝突の少ないことが分かる。
論文 参考訳(メタデータ) (2025-08-26T16:05:32Z) - SCING:Towards More Efficient and Robust Person Re-Identification through Selective Cross-modal Prompt Tuning [17.104905795008555]
Selective Cross-modal Prompt Tuning (SCING) というフレームワークを提案する。
我々のフレームワークは、効率的な推論を維持しながら重いアダプタを排除し、性能と計算オーバーヘッドの最適なトレードオフを実現する。
論文 参考訳(メタデータ) (2025-07-01T07:21:31Z) - Adversarial Robustness for Unified Multi-Modal Encoders via Efficient Calibration [12.763688592842717]
統合マルチモーダルエンコーダにおける敵の脆弱性の包括的研究について述べる。
音声や点雲などの視覚的でない入力は、特に脆弱である。
本手法は,エプシロン=4/255で最大47.3%の強靭性を向上する。
論文 参考訳(メタデータ) (2025-05-17T08:26:04Z) - Deep Positive-Negative Prototypes for Adversarially Robust Discriminative Prototypical Learning [0.24999074238880484]
本稿では,Adv-DPNP(Adversarially Training Deep Positive-Negative Prototypes)という新しいフレームワークを提案する。
Adv-DPNPは、差別的プロトタイプベースの学習と敵対訓練を統合している。
以上の結果から,Adv-DPNPは重大度および汚職種別の平均精度が最も高いことを示す。
論文 参考訳(メタデータ) (2025-04-03T15:42:58Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - CAFuser: Condition-Aware Multimodal Fusion for Robust Semantic Perception of Driving Scenes [56.52618054240197]
本研究では,運転シーンのロバストな意味認識のための条件対応型マルチモーダル融合手法を提案する。
CAFuserは、RGBカメラ入力を用いて環境条件を分類し、コンディショントークンを生成する。
我々のモデルは、特に悪条件シナリオにおいて、ロバスト性と精度を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-14T17:56:20Z) - Unpaired Adversarial Learning for Single Image Deraining with Rain-Space
Contrastive Constraints [61.40893559933964]
我々は,CDR-GAN という名称の GAN フレームワークにおいて,比較学習手法により,経験者の相互特性を探索する有効な非経験的 SID 手法を開発した。
提案手法は, 合成および実世界の両方のデータセットにおいて, 既存の非対効果のデラミニング手法に対して良好に動作し, 完全教師付きモデルや半教師付きモデルよりも優れている。
論文 参考訳(メタデータ) (2021-09-07T10:00:45Z) - Do Generative Models Know Disentanglement? Contrastive Learning is All
You Need [59.033559925639075]
本論文では,変数空間におけるコントラスト(DisCo)による非監視的,モデル非依存的手法を提案する。
DisCoは、GAN、VAE、およびフローを含む、事前訓練された非解離生成モデルに与えられた最先端の解離を達成します。
論文 参考訳(メタデータ) (2021-02-21T08:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。