論文の概要: U(PM)$^2$:Unsupervised polygon matching with pre-trained models for challenging stereo images
- arxiv url: http://arxiv.org/abs/2511.05949v1
- Date: Sat, 08 Nov 2025 09:44:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.673841
- Title: U(PM)$^2$:Unsupervised polygon matching with pre-trained models for challenging stereo images
- Title(参考訳): U(PM)$^2$:Unsupervised polygon matching with pre-trained model for challenge stereo image
- Authors: Chang Li, Xingtao Peng,
- Abstract要約: 本稿では,自動学習機能と手作り機能とを結合させることにより,事前学習モデルとの低コストな非教師付きポリゴンマッチングを新たに提案する。
我々は,ScanNetとSceneFlowのデータセットのU(PM)$2$を,新たな指標を用いてベンチマークした。
- 参考スコア(独自算出の注目度): 2.3784282912975345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stereo image matching is a fundamental task in computer vision, photogrammetry and remote sensing, but there is an almost unexplored field, i.e., polygon matching, which faces the following challenges: disparity discontinuity, scale variation, training requirement, and generalization. To address the above-mentioned issues, this paper proposes a novel U(PM)$^2$: low-cost unsupervised polygon matching with pre-trained models by uniting automatically learned and handcrafted features, of which pipeline is as follows: firstly, the detector leverages the pre-trained segment anything model to obtain masks; then, the vectorizer converts the masks to polygons and graphic structure; secondly, the global matcher addresses challenges from global viewpoint changes and scale variation based on bidirectional-pyramid strategy with pre-trained LoFTR; finally, the local matcher further overcomes local disparity discontinuity and topology inconsistency of polygon matching by local-joint geometry and multi-feature matching strategy with Hungarian algorithm. We benchmark our U(PM)$^2$ on the ScanNet and SceneFlow datasets using our proposed new metric, which achieved state-of-the-art accuracy at a competitive speed and satisfactory generalization performance at low cost without any training requirement.
- Abstract(参考訳): ステレオ画像マッチングはコンピュータビジョン、フォトグラム、リモートセンシングの基本的な課題であるが、ほとんど探索されていない分野、すなわちポリゴンマッチング(英語版)があり、不連続性、スケール変動、訓練要件、一般化といった課題に直面している。
上記の課題に対処するため,本論文では,まず,自動学習および手作り特徴の結合による,低コストで非教師付きポリゴンマッチングを新たに提案する。 パイプラインは,まず,事前学習されたセグメントモデルを利用してマスクを得る。次に,ベクトル化器はマスクをポリゴンとグラフィック構造に変換する。次に,グローバルマッチング器は,事前学習されたLoFTRを用いた双方向ピラミド戦略に基づくグローバル視点変化とスケール変動による課題に対処する。
我々は,ScanNetとSceneFlowのデータセットのU(PM)$^2$を,新たな指標を用いてベンチマークした。
関連論文リスト
- GRASP: Geospatial pixel Reasoning viA Structured Policy learning [16.023628299873494]
GRASPは、マルチモーダルな大規模言語モデルと事前訓練されたセグメンテーションモデルを統合する、構造化されたポリシー学習フレームワークである。
PRIMEは、教師付き微調整を強化学習に置き換える訓練パラダイムであり、推論や接地行動とタスク目標との整合性を改善する。
GRASP-1kは、推論集約的なクエリ、推論トレース、きめ細かいマスクを備えた、完全にドメイン外ベンチマークである。
論文 参考訳(メタデータ) (2025-08-23T18:05:06Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - Learning and Crafting for the Wide Multiple Baseline Stereo [4.7210697296108926]
この論文は、広い多重ベースラインステレオ(WxBS)問題を導入している。
WxBSは複数の画像取得因子が異なる画像のマッチングを考える。
基礎的真理、評価基準、ベースラインを備えた新しいデータセットが導入された。
論文 参考訳(メタデータ) (2021-12-22T16:52:55Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Exploiting Invariance in Training Deep Neural Networks [4.169130102668252]
動物視覚システムの2つの基本的なメカニズムに触発され、ディープニューラルネットワークのトレーニングに不変性を与える特徴変換技術を紹介します。
結果として得られるアルゴリズムはパラメータチューニングを少なくし、初期学習率1.0でうまくトレーニングし、異なるタスクに簡単に一般化する。
ImageNet、MS COCO、Cityscapesデータセットでテストされた当社の提案手法は、トレーニングにより少ないイテレーションを必要とし、すべてのベースラインを大きなマージンで上回り、小規模および大規模のバッチサイズのトレーニングをシームレスに行い、画像分類、オブジェクト検出、セマンティックセグメンテーションの異なるコンピュータビジョンタスクに適用します。
論文 参考訳(メタデータ) (2021-03-30T19:18:31Z) - Recurrent Multi-view Alignment Network for Unsupervised Surface
Registration [79.72086524370819]
非厳格な登録をエンドツーエンドで学習することは、本質的に高い自由度とラベル付きトレーニングデータの欠如により困難である。
我々は、いくつかの剛性変換のポイントワイドな組み合わせで、非剛性変換を表現することを提案する。
また,投影された多視点2次元深度画像上での3次元形状の類似度を計測する可微分損失関数も導入する。
論文 参考訳(メタデータ) (2020-11-24T14:22:42Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。