論文の概要: CLIDD: Cross-Layer Independent Deformable Description for Efficient and Discriminative Local Feature Representation
- arxiv url: http://arxiv.org/abs/2601.09230v1
- Date: Wed, 14 Jan 2026 07:03:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.30213
- Title: CLIDD: Cross-Layer Independent Deformable Description for Efficient and Discriminative Local Feature Representation
- Title(参考訳): CLIDD: 効率的かつ識別可能な局所特徴表現のための層横断独立デフォルマブル記述
- Authors: Haodi Yao, Fenghua He, Ning Hao, Yao Su,
- Abstract要約: CLIDD (Cross-Layer Independent Deformable Description) は、独立な特徴階層から直接サンプリングすることで、優れた特徴性を実現する手法である。
リアルタイム性能を確保するため,ハードウェア対応のカーネル融合戦略を実装した。
軽量アーキテクチャとトレーニングプロトコルを統合するスケーラブルなフレームワークを開発する。
- 参考スコア(独自算出の注目度): 6.478456907626643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust local feature representations are essential for spatial intelligence tasks such as robot navigation and augmented reality. Establishing reliable correspondences requires descriptors that provide both high discriminative power and computational efficiency. To address this, we introduce Cross-Layer Independent Deformable Description (CLIDD), a method that achieves superior distinctiveness by sampling directly from independent feature hierarchies. This approach utilizes learnable offsets to capture fine-grained structural details across scales while bypassing the computational burden of unified dense representations. To ensure real-time performance, we implement a hardware-aware kernel fusion strategy that maximizes inference throughput. Furthermore, we develop a scalable framework that integrates lightweight architectures with a training protocol leveraging both metric learning and knowledge distillation. This scheme generates a wide spectrum of model variants optimized for diverse deployment constraints. Extensive evaluations demonstrate that our approach achieves superior matching accuracy and exceptional computational efficiency simultaneously. Specifically, the ultra-compact variant matches the precision of SuperPoint while utilizing only 0.004M parameters, achieving a 99.7% reduction in model size. Furthermore, our high-performance configuration outperforms all current state-of-the-art methods, including high-capacity DINOv2-based frameworks, while exceeding 200 FPS on edge devices. These results demonstrate that CLIDD delivers high-precision local feature matching with minimal computational overhead, providing a robust and scalable solution for real-time spatial intelligence tasks.
- Abstract(参考訳): ロボットナビゲーションや拡張現実といった空間知能タスクには,ロバストな局所特徴表現が不可欠である。
信頼できる対応を確立するには、高い識別力と計算効率の両方を提供する記述子が必要である。
そこで本研究では,Cross-Layer Independent Deformable Description (CLIDD)を導入する。
このアプローチは、学習可能なオフセットを使用して、統一された密度表現の計算負担を回避しながら、スケールにわたってきめ細かな構造的詳細をキャプチャする。
リアルタイム性能を確保するため,推論スループットを最大化するハードウェア対応カーネル融合戦略を実装した。
さらに,距離学習と知識蒸留の両面を活用したトレーニングプロトコルを用いて,軽量アーキテクチャを統合するスケーラブルなフレームワークを開発する。
このスキームは、多様な展開制約に最適化されたモデル変種を幅広いスペクトルで生成する。
大規模評価の結果,提案手法は一致精度と計算効率を同時に向上することが示された。
具体的には、超コンパクトな変種は、0.004Mパラメータのみを使用しながらSuperPointの精度と一致し、モデルサイズを99.7%削減した。
さらに、当社の高性能構成は、エッジデバイス上で200FPSを超える高容量DINOv2ベースのフレームワークを含む、最先端のすべての手法よりも優れています。
これらの結果から,CLIDDは計算オーバーヘッドを最小限に抑えた高精度な局所的特徴マッチングを実現し,リアルタイム空間知能タスクのための堅牢でスケーラブルなソリューションを提供することが示された。
関連論文リスト
- Scaling Intelligence: Designing Data Centers for Next-Gen Language Models [0.6168147650666682]
GPT-4のような1.8兆のパラメータを持つ大規模言語モデル(LLM)は、データセンターアーキテクチャの根本的な再考を要求する。
我々の研究は、FLOPS、帯域幅と容量、複数のネットワークトポロジを共同で探求する包括的な協調設計フレームワークを提供する。
我々は、重なり合う計算と通信の利点を定量化し、ハードウェアアクセラレーションされた集合体を活用し、スケールアウト領域を広げ、メモリ容量を増大させる。
論文 参考訳(メタデータ) (2025-06-17T22:29:37Z) - ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。
本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。
本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文 参考訳(メタデータ) (2025-03-24T13:11:22Z) - LIFT: Latent Implicit Functions for Task- and Data-Agnostic Encoding [4.759109475818876]
Implicit Neural Representations (INR)は、多様なデータドメインをまたいだタスクモデリングを統合するための強力なパラダイムであることが証明されている。
本稿では,メタラーニングによるマルチスケール情報をキャプチャする新しい高性能フレームワークLIFTを紹介する。
また、残差接続と表現頻度符号化を組み込んだLIFTの強化版であるReLIFTについても紹介する。
論文 参考訳(メタデータ) (2025-03-19T17:00:58Z) - Hyperspectral Images Efficient Spatial and Spectral non-Linear Model with Bidirectional Feature Learning [7.06787067270941]
本稿では,分類精度を高めつつ,データ量を大幅に削減する新しいフレームワークを提案する。
本モデルでは,空間特徴解析のための特殊ブロックによって補完されるスペクトル特徴を効率よく抽出するために,双方向逆畳み込みニューラルネットワーク(CNN)を用いる。
論文 参考訳(メタデータ) (2024-11-29T23:32:26Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - AsymFormer: Asymmetrical Cross-Modal Representation Learning for Mobile Platform Real-Time RGB-D Semantic Segmentation [4.54656749337919]
AsymFormerは、RGB-Dマルチモーダル情報を用いたリアルタイムセマンティックセグメンテーションの精度を向上させる新しいネットワークである。
AsymFormerはマルチモーダルな特徴抽出に非対称なバックボーンを使用し、冗長なパラメータを削減している。
AsymFormerは高い精度と効率のバランスを取ることができる。
論文 参考訳(メタデータ) (2023-09-25T11:57:16Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Task-Oriented Sensing, Computation, and Communication Integration for
Multi-Device Edge AI [108.08079323459822]
本稿では,AIモデルの分割推論と統合センシング通信(ISAC)を併用した,新しいマルチインテリジェントエッジ人工レイテンシ(AI)システムについて検討する。
推定精度は近似的だが抽出可能な計量、すなわち判別利得を用いて測定する。
論文 参考訳(メタデータ) (2022-07-03T06:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。