Fugu-MT 論文翻訳(概要): LeCoT: revisiting network architecture for two-view correspondence pruning

論文の概要: LeCoT: revisiting network architecture for two-view correspondence pruning

arxiv url: http://arxiv.org/abs/2511.07078v1
Date: Mon, 10 Nov 2025 13:08:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-11 21:18:45.263231
Title: LeCoT: revisiting network architecture for two-view correspondence pruning
Title（参考訳）: LeCoT:2視点対応プルーニングのためのネットワークアーキテクチャの再検討
Authors: Luanyuan Dai, Xiaoyu Du, Jinhui Tang,
Abstract要約: 2ビュー対応プルーニングは、初期からの誤った対応(外部)を正確に除去することを目的としている。現在の一般的な戦略は多層パーセプトロン(MLP)をバックボーンとして採用している。余分な設計モジュールを使わずにコンテキスト情報をキャプチャするための新しい視点を導入する。
参考スコア（独自算出の注目度）: 37.3173570850229
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Two-view correspondence pruning aims to accurately remove incorrect correspondences (outliers) from initial ones and is widely applied to various computer vision tasks. Current popular strategies adopt multilayer perceptron (MLP) as the backbone, supplemented by additional modules to enhance the network ability to handle context information, which is a known limitation of MLPs. In contrast, we introduce a novel perspective for capturing correspondence context information without extra design modules. To this end, we design a two-view correspondence pruning network called LeCoT, which can naturally leverage global context information at different stages. Specifically, the core design of LeCoT is the Spatial-Channel Fusion Transformer block, a newly proposed component that efficiently utilizes both spatial and channel global context information among sparse correspondences. In addition, we integrate the proposed prediction block that utilizes correspondence features from intermediate stages to generate a probability set, which acts as guiding information for subsequent learning phases, allowing the network to more effectively capture robust global context information. Notably, this prediction block progressively refines the probability set, thereby mitigating the issue of information loss that is common in the traditional one. Extensive experiments prove that the proposed LeCoT outperforms state-of-the-art methods in correspondence pruning, relative pose estimation, homography estimation, visual localization, and $3$D~reconstruction tasks. The code is provided in https://github.com/Dailuanyuan2024/LeCoT-Revisiting-Network-Architecture-for-Two-View-Correspondence -Pruning.
Abstract（参考訳）: 2ビュー対応プルーニングは、初期からの不正な対応(外れ値)を正確に除去することを目的としており、様々なコンピュータビジョンタスクに広く適用されている。現在の一般的な戦略では、マルチ層パーセプトロン(MLP)をバックボーンとして採用しており、MLPの既知の制限であるコンテキスト情報を扱うネットワーク能力を高めるために追加モジュールによって補われている。対照的に、余分な設計モジュールを使わずに、対応コンテキスト情報をキャプチャするための新しい視点を導入する。この目的のために,異なる段階のグローバルコンテキスト情報を自然に活用できるLeCoTと呼ばれる2視点対応型プルーニングネットワークを設計する。特に、LeCoTの中核となる設計はSpatial-Channel Fusion Transformerブロックである。さらに、中間段階からの対応機能を利用した予測ブロックを統合して、その後の学習フェーズの案内情報として機能する確率セットを生成し、より効果的にロバストなグローバルコンテキスト情報を取得できるようにする。特に、この予測ブロックは確率セットを徐々に洗練させ、従来の予測に共通する情報損失の問題を緩和する。大規模な実験により、提案したLeCoTは、対応プルーニング、相対ポーズ推定、ホモグラフィー推定、視覚的ローカライゼーション、および3ドルD〜再構成タスクにおいて最先端の手法より優れていることが証明された。コードはhttps://github.com/Dailuanyuan2024/LeCoT-Revisiting-Network-Architecture-for-Two-View-Cor correspondingence-Pruningで提供されている。

関連論文リスト

Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。 RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文参考訳（メタデータ） (2024-10-11T08:28:04Z)
Double-Shot 3D Shape Measurement with a Dual-Branch Network for Structured Light Projection Profilometry [14.749887303860717]
我々は、異なる構造光(SL)変調を処理するために、デュアルブランチ畳み込みニューラルネットワーク(CNN)-トランスフォーマーネットワーク(PDCNet)を提案する。 PDCNet内では、Transformerブランチを使用してフリンジイメージのグローバルな認識をキャプチャし、CNNブランチはスペックルイメージのローカル詳細を収集するように設計されている。提案手法は, 自己生成データセット上で高精度な結果が得られる一方で, フランジオーダーの曖昧さを低減できる。
論文参考訳（メタデータ） (2024-07-19T10:49:26Z)
BCLNet: Bilateral Consensus Learning for Two-View Correspondence Pruning [26.400567961735234]
対応プルーニングは、2つの関連する画像間の信頼性の高い対応を確立することを目的としている。既存のアプローチでは、ローカルとグローバルのコンテキストを扱うために、プログレッシブな戦略を採用することが多い。本稿では,2視点対応型プルーニングタスクにおいて,双方向のコンセンサスを取得するための並列コンテキスト学習戦略を提案する。
論文参考訳（メタデータ） (2024-01-07T11:38:15Z)
CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。 TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文参考訳（メタデータ） (2022-10-19T03:43:12Z)
Learning Target-aware Representation for Visual Tracking via Informative Interactions [49.552877881662475]
トラッキングのための特徴表現のターゲット認識能力を改善するために,新しいバックボーンアーキテクチャを提案する。提案したGIMモジュールとInBN機構は、CNNやTransformerなど、さまざまなバックボーンタイプに適用可能である。
論文参考訳（メタデータ） (2022-01-07T16:22:27Z)
DenseGAP: Graph-Structured Dense Correspondence Learning with Anchor Points [15.953570826460869]
2つの画像間の密接な対応を確立することは、基本的なコンピュータビジョンの問題である。我々は、アンカーポイントに条件付きグラフ構造化ニューラルネットワークを用いたDense対応学習のための新しいソリューションであるDenseGAPを紹介する。提案手法は,ほとんどのベンチマークにおいて対応学習の最先端化を図っている。
論文参考訳（メタデータ） (2021-12-13T18:59:30Z)
LC3Net: Ladder context correlation complementary network for salient object detection [0.32116198597240836]
我々は,新しいラグコンテキスト相関補完ネットワーク (LC3Net) を提案する。 FCBはフィルタリング可能な畳み込みブロックであり、初期特徴の多様性に関する情報の自動収集を支援する。 DCMは、異なるレベルの特徴の密集を促進するための密接なクロスモジュールである。 BCDは双方向圧縮デコーダであり、マルチスケール機能の段階的縮小を支援する。
論文参考訳（メタデータ） (2021-10-21T03:12:32Z)
PIN: A Novel Parallel Interactive Network for Spoken Language Understanding [68.53121591998483]
既存の RNN ベースのアプローチでは、ID と SF のタスクは、それらの間の相関情報を利用するために、しばしば共同でモデル化される。 SNIPSとATISという2つのベンチマークデータセットによる実験は、我々のアプローチの有効性を実証している。さらに,事前学習した言語モデルBERTが生成した発話の特徴埋め込みを用いて,提案手法はすべての比較手法の中で最先端の手法を実現する。
論文参考訳（メタデータ） (2020-09-28T15:59:31Z)
Dual-constrained Deep Semi-Supervised Coupled Factorization Network with Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文参考訳（メタデータ） (2020-09-08T13:10:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。