論文の概要: Adaptive Agent Selection and Interaction Network for Image-to-point cloud Registration
- arxiv url: http://arxiv.org/abs/2511.05965v1
- Date: Sat, 08 Nov 2025 10:50:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.683387
- Title: Adaptive Agent Selection and Interaction Network for Image-to-point cloud Registration
- Title(参考訳): 画像間クラウド登録のための適応エージェント選択とインタラクションネットワーク
- Authors: Zhixin Cheng, Xiaotian Yin, Jiacheng Deng, Bohao Liao, Yujia Chen, Xu Zhou, Baoqun Yin, Tianzhu Zhang,
- Abstract要約: 本稿では,IAS (Iterative Agents Selection) モジュールとRAI (Reliable Agents Interaction) モジュールの2つの主要なモジュールからなる新しいクロスモーダル登録フレームワークを提案する。
IASはフェーズマップによる構造的特徴認識を強化し、信頼性のあるエージェントを効率的に選択するための強化学習原則を採用している。
RAIは、これらの選択されたエージェントを利用して、異種間相互作用をガイドし、ミスマッチを効果的に低減し、全体的な堅牢性を改善する。
- 参考スコア(独自算出の注目度): 28.794550758318664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Typical detection-free methods for image-to-point cloud registration leverage transformer-based architectures to aggregate cross-modal features and establish correspondences. However, they often struggle under challenging conditions, where noise disrupts similarity computation and leads to incorrect correspondences. Moreover, without dedicated designs, it remains difficult to effectively select informative and correlated representations across modalities, thereby limiting the robustness and accuracy of registration. To address these challenges, we propose a novel cross-modal registration framework composed of two key modules: the Iterative Agents Selection (IAS) module and the Reliable Agents Interaction (RAI) module. IAS enhances structural feature awareness with phase maps and employs reinforcement learning principles to efficiently select reliable agents. RAI then leverages these selected agents to guide cross-modal interactions, effectively reducing mismatches and improving overall robustness. Extensive experiments on the RGB-D Scenes v2 and 7-Scenes benchmarks demonstrate that our method consistently achieves state-of-the-art performance.
- Abstract(参考訳): イメージ・ツー・ポイント・クラウド登録のための典型的な検出不要な手法は、トランスフォーマーベースのアーキテクチャを利用して、クロスモーダルな特徴を集約し、対応を確立する。
しかし、ノイズが類似性計算を妨害し、誤った対応をもたらすような困難な条件下では、しばしば苦労する。
さらに、専用の設計がなければ、モダリティ間の情報的および相関的な表現を効果的に選択することは困難であり、それによって登録の堅牢性と精度が制限される。
これらの課題に対処するため,Iterative Agents Selection (IAS) モジュールとReliable Agents Interaction (RAI) モジュールの2つの主要なモジュールからなる,新たなクロスモーダル登録フレームワークを提案する。
IASはフェーズマップによる構造的特徴認識を強化し、信頼性のあるエージェントを効率的に選択するための強化学習原則を採用している。
RAIは、これらの選択されたエージェントを利用して、異種間相互作用をガイドし、ミスマッチを効果的に低減し、全体的な堅牢性を改善する。
RGB-D Scenes v2と7-Scenesベンチマークの大規模な実験により,我々の手法が常に最先端の性能を達成することを示す。
関連論文リスト
- Source-Free Object Detection with Detection Transformer [59.33653163035064]
Source-Free Object Detection (SFOD) は、ソースデータにアクセスすることなく、ソースドメインから教師なしのターゲットドメインへの知識転送を可能にする。
ほとんどの既存のSFODアプローチは、より高速なR-CNNのような従来のオブジェクト検出(OD)モデルに限られるか、新しいODアーキテクチャ、特に検出変換器(DETR)に適合しない一般的なソリューションとして設計されている。
本稿では,DTRのクエリ中心の機能強化を特化して設計された新しいSFODフレームワークであるFeature Reweighting ANd Contrastive Learning NetworK(FRANCK)を紹介する。
論文 参考訳(メタデータ) (2025-10-13T07:35:04Z) - DART: Dual Adaptive Refinement Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
Open-Vocabulary Multi-Label Recognition (OV-MLR)は、画像内の複数の見えないオブジェクトカテゴリを識別することを目的としている。
ビジョンランゲージ事前学習モデルは強力なオープン語彙基盤を提供するが、弱い監督下では微粒な局所化に苦慮する。
本稿では,これらの制約を克服するためのDART(Dual Adaptive Refinement Transfer)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-07T17:22:33Z) - Dual-Granularity Cross-Modal Identity Association for Weakly-Supervised Text-to-Person Image Matching [7.1469465755934785]
弱教師付きテキスト対人画像マッチングは、大規模な手動ラベル付きサンプルへのモデル依存を減らすための重要なアプローチである。
本稿では,複雑な一対多の同一性関係を予測するために,二重粒度同一性関連機構を提案する。
実験結果から,提案手法はクロスモーダルマッチングの精度を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-07-09T10:59:13Z) - SCING:Towards More Efficient and Robust Person Re-Identification through Selective Cross-modal Prompt Tuning [17.104905795008555]
Selective Cross-modal Prompt Tuning (SCING) というフレームワークを提案する。
我々のフレームワークは、効率的な推論を維持しながら重いアダプタを排除し、性能と計算オーバーヘッドの最適なトレードオフを実現する。
論文 参考訳(メタデータ) (2025-07-01T07:21:31Z) - Diffusion Augmented Retrieval: A Training-Free Approach to Interactive Text-to-Image Retrieval [7.439049772394586]
Diffusion Augmented Retrieval (DAR)は、複数の中間表現を生成するフレームワークである。
DARの結果は微調整されたI-TIRモデルと同等だが、チューニングオーバーヘッドは発生しない。
論文 参考訳(メタデータ) (2025-01-26T03:29:18Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - Plug-and-Play Regulators for Image-Text Matching [76.28522712930668]
微細な対応と視覚的セマンティックなアライメントの爆発は、画像とテキストのマッチングにおいて大きな可能性を秘めている。
我々は、メッセージ出力を効率的にエンコードして、コンテキストを自動生成し、モーダル表現を集約する、シンプルだが非常に効果的な2つのレギュレータを開発した。
MSCOCOとFlickr30Kデータセットの実験は、複数のモデルで印象的で一貫したR@1ゲインをもたらすことができることを実証している。
論文 参考訳(メタデータ) (2023-03-23T15:42:05Z) - CMTR: Cross-modality Transformer for Visible-infrared Person
Re-identification [38.96033760300123]
可視赤外人物再識別のための相互モダリティトランスフォーマー法(CMTR)
我々は,モダリティの情報をエンコードするために,トークン埋め込みと融合した新しいモダリティ埋め込みを設計する。
提案するCMTRモデルの性能は,既存のCNN方式をはるかに上回っている。
論文 参考訳(メタデータ) (2021-10-18T03:12:59Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。