論文の概要: SC-Net: Robust Correspondence Learning via Spatial and Cross-Channel Context
- arxiv url: http://arxiv.org/abs/2512.23473v1
- Date: Mon, 29 Dec 2025 13:56:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.524266
- Title: SC-Net: Robust Correspondence Learning via Spatial and Cross-Channel Context
- Title(参考訳): SC-Net:空間的・横断的文脈によるロバスト対応学習
- Authors: Shuyuan Lin, Hailiang Liao, Qiang Qi, Junjie Huang, Taotao Lai, Jian Weng,
- Abstract要約: 最近の研究は、共用学習のバックボーンとして畳み込みニューラルネットワーク(CNN)の使用に焦点を当てている。
本研究では,空間的・チャネル的両面的な文脈を効果的に統合するSC-Netというネットワークを提案する。
実験では、SC-Netは相対的なポーズ推定と外乱除去タスクにおいて最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 19.20797236825297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has focused on using convolutional neural networks (CNNs) as the backbones in two-view correspondence learning, demonstrating significant superiority over methods based on multilayer perceptrons. However, CNN backbones that are not tailored to specific tasks may fail to effectively aggregate global context and oversmooth dense motion fields in scenes with large disparity. To address these problems, we propose a novel network named SC-Net, which effectively integrates bilateral context from both spatial and channel perspectives. Specifically, we design an adaptive focused regularization module (AFR) to enhance the model's position-awareness and robustness against spurious motion samples, thereby facilitating the generation of a more accurate motion field. We then propose a bilateral field adjustment module (BFA) to refine the motion field by simultaneously modeling long-range relationships and facilitating interaction across spatial and channel dimensions. Finally, we recover the motion vectors from the refined field using a position-aware recovery module (PAR) that ensures consistency and precision. Extensive experiments demonstrate that SC-Net outperforms state-of-the-art methods in relative pose estimation and outlier removal tasks on YFCC100M and SUN3D datasets. Source code is available at http://www.linshuyuan.com.
- Abstract(参考訳): 最近の研究は、畳み込みニューラルネットワーク(CNN)を2次元対応学習のバックボーンとして使用することに集中しており、多層パーセプトロンに基づく手法よりも大きな優位性を示している。
しかし、特定のタスクに適合しないCNNバックボーンは、大きな相違のあるシーンにおいて、グローバルコンテキストと高密度な運動場を効果的に集約することができない可能性がある。
これらの問題に対処するために,空間的・チャネル的両面的な文脈を効果的に統合するSC-Netというネットワークを提案する。
具体的には,適応型集中型正規化モジュール(AFR)を設計し,より正確な運動場生成を容易にする。
次に、長距離関係を同時にモデル化し、空間次元とチャネル次元をまたいだ相互作用を容易にすることによって、運動場を洗練するための両側フィールド調整モジュール(BFA)を提案する。
最後に, 位置認識回復モジュール (PAR) を用いて, 精度と整合性を確保することにより, 精密場から運動ベクトルを復元する。
SC-Netは、YFCC100MとSUN3Dデータセット上で、相対的なポーズ推定と外れ値除去タスクにおいて、最先端の手法よりも優れていることを示した。
ソースコードはhttp://www.linshuyuan.comで入手できる。
関連論文リスト
- Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2025-10-11T06:36:59Z) - RangeSAM: Leveraging Visual Foundation Models for Range-View repesented LiDAR segmentation [6.513648249086729]
本稿では,SAM2を3次元セグメンテーションに適応させる最初のレンジビューフレームワークを提案する。
提案手法は,2D中心パイプラインの速度,スケーラビリティ,デプロイメントの単純さを生かしながら,セマンティックKITTI上での競合性能を実現する。
論文 参考訳(メタデータ) (2025-09-19T11:33:10Z) - SAMamba: Adaptive State Space Modeling with Hierarchical Vision for Infrared Small Target Detection [12.964308630328688]
赤外線小目標検出(ISTD)は、軍事・海上・早期警戒用途における長距離監視に不可欠である。
ISTDは画像の0.15%未満のターゲットと複雑な背景との識別性が低いターゲットによって挑戦されている。
本稿では,SAM2の階層的特徴学習とMambaの選択的シーケンスモデリングを統合した新しいフレームワークSAMambaを提案する。
論文 参考訳(メタデータ) (2025-05-29T07:55:23Z) - CFMD: Dynamic Cross-layer Feature Fusion for Salient Object Detection [7.262250906929891]
クロス層機能ピラミッドネットワーク(CFPN)は,多層機能融合と境界詳細保存において顕著な進歩を遂げている。
これらの課題に対処するために,CFMDという,2つの重要なイノベーションを取り入れた,新しいクロスレイヤ機能ピラミッドネットワークを提案する。
まず,現在最先端のMambaアーキテクチャを組み込んで動的重み分布機構を構築するコンテキスト認識機能集約モジュール(CFLMA)を設計する。
第2に,分解能回復時に空間的詳細を保存する適応動的アップサンプリングユニット(CFLMD)を導入する。
論文 参考訳(メタデータ) (2025-04-02T03:22:36Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Double-Shot 3D Shape Measurement with a Dual-Branch Network for Structured Light Projection Profilometry [14.749887303860717]
我々は、異なる構造光(SL)変調を処理するために、デュアルブランチ畳み込みニューラルネットワーク(CNN)-トランスフォーマーネットワーク(PDCNet)を提案する。
PDCNet内では、Transformerブランチを使用してフリンジイメージのグローバルな認識をキャプチャし、CNNブランチはスペックルイメージのローカル詳細を収集するように設計されている。
提案手法は, 自己生成データセット上で高精度な結果が得られる一方で, フランジオーダーの曖昧さを低減できる。
論文 参考訳(メタデータ) (2024-07-19T10:49:26Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。