論文の概要: CorrMoE: Mixture of Experts with De-stylization Learning for Cross-Scene and Cross-Domain Correspondence Pruning
- arxiv url: http://arxiv.org/abs/2507.11834v1
- Date: Wed, 16 Jul 2025 01:44:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.192667
- Title: CorrMoE: Mixture of Experts with De-stylization Learning for Cross-Scene and Cross-Domain Correspondence Pruning
- Title(参考訳): CorrMoE: クロスシーンおよびクロスドメイン対応プランニングのための非スティル化学習専門家の混在
- Authors: Peiwen Xia, Tangfei Liao, Wei Zhu, Danhuai Zhao, Jianjun Ke, Kaihao Zhang, Tong Lu, Tao Wang,
- Abstract要約: CorrMoEは、クロスドメインとクロスシーンのバリエーションの下で堅牢性を高める通信プルーニングフレームワークである。
シーンの多様性のために,多視点機能を適応的に統合するBi-Fusion Mixture of Expertsモジュールを設計する。
ベンチマークデータセットの実験では、CorrMoEは最先端の手法に比べて精度と一般化が優れていることが示されている。
- 参考スコア(独自算出の注目度): 30.111296778234124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Establishing reliable correspondences between image pairs is a fundamental task in computer vision, underpinning applications such as 3D reconstruction and visual localization. Although recent methods have made progress in pruning outliers from dense correspondence sets, they often hypothesize consistent visual domains and overlook the challenges posed by diverse scene structures. In this paper, we propose CorrMoE, a novel correspondence pruning framework that enhances robustness under cross-domain and cross-scene variations. To address domain shift, we introduce a De-stylization Dual Branch, performing style mixing on both implicit and explicit graph features to mitigate the adverse influence of domain-specific representations. For scene diversity, we design a Bi-Fusion Mixture of Experts module that adaptively integrates multi-perspective features through linear-complexity attention and dynamic expert routing. Extensive experiments on benchmark datasets demonstrate that CorrMoE achieves superior accuracy and generalization compared to state-of-the-art methods. The code and pre-trained models are available at https://github.com/peiwenxia/CorrMoE.
- Abstract(参考訳): 画像ペア間の信頼性の高い対応を確立することは、コンピュータビジョンにおける基本的な課題であり、3次元再構成や視覚的ローカライゼーションといった応用を支える。
近年の手法では、密接な対応集合から外れ値を取り出す方法が進歩しているが、しばしば一貫した視覚領域を仮定し、多様なシーン構造がもたらす課題を見落としている。
本稿では,クロスドメインおよびクロスシーン変動下でのロバスト性を高める新しい対応型プルーニングフレームワークであるCorrMoEを提案する。
ドメインシフトに対処するために、ドメイン固有の表現の悪影響を軽減するために、暗黙的および明示的なグラフ特徴の両方でスタイルミキシングを行うDe-stylization Dual Branchを導入する。
シーンの多様性のために、線形複雑度注意と動的エキスパートルーティングにより、多視点機能を適応的に統合するBi-Fusion Mixture of Expertsモジュールを設計する。
ベンチマークデータセットの大規模な実験により、CorrMoEは最先端の手法に比べて精度と一般化が優れていることが示された。
コードと事前トレーニングされたモデルはhttps://github.com/peiwenxia/CorrMoE.comで公開されている。
関連論文リスト
- Domain-Invariant Per-Frame Feature Extraction for Cross-Domain Imitation Learning with Visual Observations [5.971046215117033]
IL(Imitation Learning)は、エージェントが報酬信号なしで専門家の行動を模倣することを可能にするが、高次元、雑音、不完全な視覚的観察を伴うクロスドメインシナリオの課題に直面している。
ドメイン不変な特徴を個々のフレームから抽出し,それをシーケンスに適応させて,専門家の行動を分離し,再現する新しいIL手法であるDIFF-ILを提案する。
論文 参考訳(メタデータ) (2025-02-05T03:52:36Z) - Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints [15.541287957548771]
本稿では,粗大な一貫性制約を持つビジュアルグラウンドアーキテクチャを提案する。
暗黙的かつ明示的なモデリングアプローチを2段階のフレームワークに統合する。
最先端のREC法とRIS法を実質的なマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2025-01-12T04:30:13Z) - Robust Scene Change Detection Using Visual Foundation Models and Cross-Attention Mechanisms [27.882122236282054]
本稿では,視覚基礎モデルDINOv2の頑健な特徴抽出機能を活用したシーン変化検出手法を提案する。
我々は,VL-CMU-CDとPSCDの2つのベンチマークデータセットに対するアプローチと,その視点評価バージョンについて検討した。
実験では,F1スコアにおいて,特に画像ペア間の幾何学的変化を伴うシナリオにおいて,顕著な改善が示された。
論文 参考訳(メタデータ) (2024-09-25T11:55:27Z) - Cross-Domain Separable Translation Network for Multimodal Image Change Detection [11.25422609271201]
マルチモーダル変化検出(MCD)はリモートセンシングコミュニティにおいて特に重要である。
本稿では,MDDの課題,特に異なるセンサの画像を比較することの難しさに対処することに焦点を当てる。
これらの制限を克服するために、新しい教師なしクロスドメイン分離型翻訳ネットワーク(CSTN)が提案されている。
論文 参考訳(メタデータ) (2024-07-23T03:56:02Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Improving Anomaly Segmentation with Multi-Granularity Cross-Domain
Alignment [17.086123737443714]
異常セグメンテーションは、画像中の非定型物体を識別する上で重要な役割を担っている。
既存の手法は合成データに顕著な結果を示すが、合成データドメインと実世界のデータドメインの相違を考慮できないことが多い。
シーンと個々のサンプルレベルの両方で、ドメイン間の機能を調和させるのに適した、マルチグラニュラリティ・クロスドメインアライメントフレームワークを導入します。
論文 参考訳(メタデータ) (2023-08-16T22:54:49Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - Marginal Contrastive Correspondence for Guided Image Generation [58.0605433671196]
例題に基づく画像翻訳は、条件入力と2つの異なる領域からの例題間の密接な対応を確立する。
既存の作業は、2つのドメインにまたがる機能的距離を最小化することで、ドメイン間の通信を暗黙的に構築する。
本稿では,MCL-Net(Marginal Contrastive Learning Network)の設計を行った。
論文 参考訳(メタデータ) (2022-04-01T13:55:44Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z) - Co-Attention for Conditioned Image Matching [91.43244337264454]
照明, 視点, コンテキスト, 素材に大きな変化がある場合, 野生のイメージペア間の対応性を決定するための新しい手法を提案する。
他のアプローチでは、イメージを個別に扱うことで、画像間の対応を見出すが、その代わりに、画像間の差異を暗黙的に考慮するよう、両画像に条件を付ける。
論文 参考訳(メタデータ) (2020-07-16T17:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。