Fugu-MT 論文翻訳(概要): MSP-MVS: Multi-Granularity Segmentation Prior Guided Multi-View Stereo

論文の概要: MSP-MVS: Multi-Granularity Segmentation Prior Guided Multi-View Stereo

arxiv url: http://arxiv.org/abs/2407.19323v4
Date: Wed, 18 Dec 2024 09:28:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-19 16:46:51.840214
Title: MSP-MVS: Multi-Granularity Segmentation Prior Guided Multi-View Stereo
Title（参考訳）: MSP-MVS: ガイド付きマルチビューステレオ以前のマルチグラニュラリティセグメンテーション
Authors: Zhenlong Yuan, Cong Liu, Fei Shen, Zhaoxin Li, Jinguo Luo, Tianlu Mao, Zhaoqi Wang,
Abstract要約: MSP-MVSは,マルチグラニュラリティセグメンテーションを導入する手法である。相関信頼画素の等価分布と分解クラスタリングを実装した。また,グローバルな最小マッチングコストの特定を支援するために,差分サンプリングの相乗的3次元最適化も導入する。
参考スコア（独自算出の注目度）: 8.303396507129266
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, patch deformation-based methods have demonstrated significant strength in multi-view stereo by adaptively expanding the reception field of patches to help reconstruct textureless areas. However, such methods mainly concentrate on searching for pixels without matching ambiguity (i.e., reliable pixels) when constructing deformed patches, while neglecting the deformation instability caused by unexpected edge-skipping, resulting in potential matching distortions. Addressing this, we propose MSP-MVS, a method introducing multi-granularity segmentation prior for edge-confined patch deformation. Specifically, to avoid unexpected edge-skipping, we first aggregate and further refine multi-granularity depth edges gained from Semantic-SAM as prior to guide patch deformation within depth-continuous (i.e., homogeneous) areas. Moreover, to address attention imbalance caused by edge-confined patch deformation, we implement adaptive equidistribution and disassemble-clustering of correlative reliable pixels (i.e., anchors), thereby promoting attention-consistent patch deformation. Finally, to prevent deformed patches from falling into local-minimum matching costs caused by the fixed sampling pattern, we introduce disparity-sampling synergistic 3D optimization to help identify global-minimum matching costs. Evaluations on ETH3D and Tanks & Temples benchmarks prove our method obtains state-of-the-art performance with remarkable generalization.
Abstract（参考訳）: 近年,パッチのレセプション場を適応的に拡張してテクスチャレス領域の再構築を支援することで,マルチビューステレオにおいて,パッチ変形に基づく手法が顕著な強度を示した。しかし、このような手法は主に、変形したパッチを構成するときの曖昧さ(すなわち信頼性の高いピクセル)を一致させることなくピクセルの探索に集中する一方で、予期せぬエッジスキッピングによる変形不安定さを無視し、潜在的に一致した歪みをもたらす。そこで本稿では,マルチグラニュラリティセグメンテーションを導入したMSP-MVSを提案する。具体的には、予期せぬエッジスキッピングを避けるために、まずセマンティック・SAMから得られた多粒度深度エッジを集約し、さらに改良し、深さ連続(等質)領域におけるパッチ変形を導出する。さらに,エッジ強調パッチ変形による注意不均衡に対処するため,相関信頼画素(アンカー)のアダプティブ均等化と分解クラスタリングを実施し,アダプティブ一貫性パッチ変形を促進させる。最後に、固定サンプリングパターンによって生じる局所最小マッチングコストに変形パッチが陥るのを防止するために、グローバル最小マッチングコストの特定を支援するために、差分サンプリングの相乗的3次元最適化を導入する。 ETH3D と Tanks & Temples のベンチマークによる評価により,本手法は目覚ましい一般化を伴う最先端性能が得られることを示した。

関連論文リスト

Universal Pansharpening Foundation Model [67.10467574892282]
高分解能マルチスペクトル(MS)画像は、テクスチャリッチパンクロマティック(PAN)画像と低分解能MS画像からのスペクトル特性から空間的詳細を統合することで生成する。本稿では,衛星非依存およびシーンロバスト融合のための普遍的パンシャーピング基盤モデルFoundPSを提案する。
論文参考訳（メタデータ） (2026-03-04T08:30:15Z)
Any Resolution Any Geometry: From Multi-View To Multi-Patch [46.8276232687626]
Ultra Resolution Geometry Transformer (URGT) は、VGGT (Visual Geometry Grounded Transformer) をモノクル高分解能深度正規推定のための統一マルチパッチトランスに適合させる。 1つの高解像度画像は、事前訓練されたモデルから粗い深さと通常の先行値で拡張されたパッチに分割され、1つの前方通過で共同処理され、洗練された幾何出力を予測する。提案手法はUnrealStereo4Kの最先端化を実現し,AbsRelを0.0582から0.0291に,RMSEを2.17から1.3に削減する。
論文参考訳（メタデータ） (2026-03-03T14:18:24Z)
DVP-MVS++: Synergize Depth-Normal-Edge and Harmonized Visibility Prior for Multi-View Stereo [7.544716770845737]
そこで我々は,DVP-MVS++を提案する。DVP-MVS++は,高度で可視性の高いパッチ変形に対して,奥行き正規のエッジアライメントと調和されたクロスビューの両方を相乗化する革新的な手法である。 ETH3D, Tanks & TemplesおよびStrechaデータセットの評価結果は,提案手法の最先端性能と堅牢な一般化能力を示す。
論文参考訳（メタデータ） (2025-06-16T08:15:22Z)
PAID: Pairwise Angular-Invariant Decomposition for Continual Test-Time Adaptation [70.98107766265636]
本稿では,事前学習した重みの幾何学的特性を出発点として,3つの重要な成分(等級,絶対角,対角構造)を体系的に解析する。両角構造は多種多様なドメインにわたって安定であり, ドメイン不変な意味情報を符号化し, 適応中に保存すべきことを示唆する。
論文参考訳（メタデータ） (2025-06-03T05:18:15Z)
PAN-Crafter: Learning Modality-Consistent Alignment for PAN-Sharpening [20.43260906326048]
本稿では,Modality-ConsistentアライメントフレームワークであるPAN-Crafterを提案する。 Modality-Adaptive Restruction (MAR)は、HRMSとPANの画像を共同で再構築する。複数のベンチマークデータセットの実験では、PAN-Crafterがすべてのメトリクスで最新の最先端メソッドよりも優れています。
論文参考訳（メタデータ） (2025-05-29T11:46:21Z)
Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。大規模な実験ではPPADの大幅な改善が示されている。
論文参考訳（メタデータ） (2025-05-26T14:42:35Z)
SED-MVS: Segmentation-Driven and Edge-Aligned Deformation Multi-View Stereo with Depth Restoration and Occlusion Constraint [11.165686149180054]
SED-MVSは、セグメント化駆動およびエッジ整合のパッチ変形に対して、単光分割と多軌道拡散戦略を採用する。具体的には、予想外のエッジスキッピングを防止するために、まず、パッチ変形をガイドするディープエッジガイダンスとしてSAM2を使用し、その後、パッチがディープエッジに包括的に整合していることを保証するマルチ軌道拡散戦略を用いる。
論文参考訳（メタデータ） (2025-03-17T21:07:44Z)
Semi-Supervised 360 Layout Estimation with Panoramic Collaborative Perturbations [56.84921040837699]
協調摂動によるパノラマ配置と歪みの先行を組み込んだセミ教師付きセミ360を提案する。提案手法が既存のSoTA(State-of-the-art (SoTA)) ソリューションに対して有意な優位性を示すことを示す。
論文参考訳（メタデータ） (2025-03-03T02:49:20Z)
Dual-Level Precision Edges Guided Multi-View Stereo with Accurate Planarization [3.597821311597427]
低テクスチャ領域のマルチビューステレオ (MVS) 再構築が注目されている。従来のMVSメソッドは、オブジェクト境界と限られた知覚範囲をまたぐような問題にしばしば遭遇する。平面モデル構築のロバスト性を高めるため、細部および粗部を含む二段精度エッジ情報を導入する。提案手法は,ETH3D と Tanks & Temples ベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2024-12-29T02:54:01Z)
DVP-MVS: Synergize Depth-Edge and Visibility Prior for Multi-View Stereo [8.303396507129266]
そこで我々は,DVP-MVSを提案する。DVP-MVSは,より堅牢で可視性の高いパッチ変形に先立って,奥行き整合とクロスビューを相乗化できる。本手法は, 頑健さと一般化性に優れ, 最先端の性能を実現することができる。
論文参考訳（メタデータ） (2024-12-16T09:09:10Z)
A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文参考訳（メタデータ） (2024-11-04T08:50:16Z)
MROVSeg: Breaking the Resolution Curse of Vision-Language Models in Open-Vocabulary Semantic Segmentation [33.67313662538398]
オープン語彙セマンティックセマンティックセグメンテーションのためのマルチレゾリューション・トレーニング・フレームワークを提案する。 MROVSegはスライディングウィンドウを使用して高解像度の入力を均一なパッチにスライスし、それぞれがよく訓練されたイメージエンコーダの入力サイズと一致する。オープン語彙セマンティックセグメンテーションベンチマークにおけるMROVSegの優位性を実証する。
論文参考訳（メタデータ） (2024-08-27T04:45:53Z)
Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文参考訳（メタデータ） (2024-08-26T04:56:41Z)
SD-MVS: Segmentation-Driven Deformation Multi-View Stereo with Spherical Refinement and EM optimization [6.886220026399106]
テクスチャレス領域の3次元再構成における課題を解決するために,多視点ステレオ (SD-MVS) を導入する。私たちは、シーン内のセグメンテーションインスタンスを区別するためにSAM(Segment Anything Model)を採用した最初の人です。球面座標と正規点の勾配勾配と深度の画素方向探索間隔を組み合わせた独自の精細化戦略を提案する。
論文参考訳（メタデータ） (2024-01-12T05:25:57Z)
360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。また,水平深度と比表現に適した教師なし適応手法を提案する。本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文参考訳（メタデータ） (2023-12-26T12:16:03Z)
MP-MVS: Multi-Scale Windows PatchMatch and Planar Prior Multi-View Stereo [7.130834755320434]
レジリエントで効果的なマルチビューステレオアプローチ(MP-MVS)を提案する。マルチスケールウィンドウPatchMatch (mPM) を設計し, 信頼性の高い非テクスチャ領域の深さを求める。他のマルチスケールアプローチとは対照的に、より高速で、PatchMatchベースのMVSアプローチに容易に拡張できる。
論文参考訳（メタデータ） (2023-09-23T07:30:42Z)
Improving Misaligned Multi-modality Image Fusion with One-stage Progressive Dense Registration [67.23451452670282]
多モード画像間の相違は、画像融合の課題を引き起こす。マルチスケールプログレッシブ・センス・レジストレーション方式を提案する。このスキームは、一段階最適化のみで粗大な登録を行う。
論文参考訳（メタデータ） (2023-08-22T03:46:24Z)
TSAR-MVS: Textureless-aware Segmentation and Correlative Refinement Guided Multi-View Stereo [3.6728185343140685]
テクスチャレス・アンド・コリレーティブ・リファインメント・ガイド付きマルチビューステレオ (TSAR-MVS) 法を提案する。フィルター,精細化,セグメンテーションによる3次元再構成におけるテクスチャレス領域による課題を効果的に解決する。 ETH3D, Tanks & Temples および Strecha データセットの実験により,提案手法の優れた性能と強みが示された。
論文参考訳（メタデータ） (2023-08-19T11:40:57Z)
Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation [51.14107156747967]
弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全な教師付きアプローチよりもアノテーションが少ないため、かなりの注目を集めている。本研究では,非学際的な過密化に対する深い注意を抑えるための適応的再活性化機構 (AReAM) を提案する。 AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞る。
論文参考訳（メタデータ） (2023-05-04T19:11:33Z)
Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth Estimation in Dynamic Scenes [51.20150148066458]
一般化されたマスクを必要とせず,ボリュームとして符号化された多視点と単眼のキューを融合させる新しい手法を提案する。実世界のデータセットを用いた実験は,提案手法の有効性と性能を実証する。
論文参考訳（メタデータ） (2023-04-18T13:55:24Z)
Deep Diversity-Enhanced Feature Representation of Hyperspectral Images [87.47202258194719]
トポロジを改良して3次元畳み込みを補正し,上行階の高次化を図る。また、要素間の独立性を最大化するために特徴マップに作用する新しい多様性対応正規化(DA-Reg)項を提案する。提案したRe$3$-ConvSetとDA-Regの優位性を実証するために,様々なHS画像処理および解析タスクに適用する。
論文参考訳（メタデータ） (2023-01-15T16:19:18Z)
DeViT: Deformed Vision Transformers in Video Inpainting [59.73019717323264]
Deformed Patch-based Homography (DePtH)を導入して、パッチアライメントによる以前のトランスフォーマーを拡張した。第2に、パッチワイズ機能マッチングを改善するために、Mask Pruning-based Patch Attention (MPPA)を導入する。第3に、時空間トークンに対する正確な注意を得るために、時空間重み付け適応器(STA)モジュールを導入する。
論文参考訳（メタデータ） (2022-09-28T08:57:14Z)
A Model for Multi-View Residual Covariances based on Perspective Deformation [88.21738020902411]
マルチビューSfM, オードメトリ, SLAMセットアップにおける視覚的残差の共分散モデルの導出を行う。我々は、合成データと実データを用いてモデルを検証し、それを光度および特徴量に基づくバンドル調整に統合する。
論文参考訳（メタデータ） (2022-02-01T21:21:56Z)
Out-of-Domain Human Mesh Reconstruction via Dynamic Bilevel Online Adaptation [87.85851771425325]
我々は、人間のメッシュ再構成モデルをドメイン外ストリーミングビデオに適用する際の新しい問題を考える。オンライン適応によってこの問題に対処し、テスト中のモデルのバイアスを徐々に修正します。動的バイレベルオンライン適応アルゴリズム(DynaBOA)を提案する。
論文参考訳（メタデータ） (2021-11-07T07:23:24Z)
Attention Toward Neighbors: A Context Aware Framework for High Resolution Image Segmentation [2.9210447295585724]
本稿では,隣接するパッチからコンテキスト情報を取り入れ,特定のパッチをセグメント化する新しいフレームワークを提案する。これにより、セグメンテーションネットワークは、より大きな機能マップを必要とせずに、より広い視野でターゲットパッチを見ることができる。
論文参考訳（メタデータ） (2021-06-24T10:58:09Z)
LocalTrans: A Multiscale Local Transformer Network for Cross-Resolution Homography Estimation [52.63874513999119]
クロスレゾリューション画像アライメントは、マルチスケールギガ撮影において重要な問題である。既存のディープ・ホモグラフィー手法は、それらの間の対応の明示的な定式化を無視し、クロスレゾリューションの課題において精度が低下する。本稿では,マルチモーダル入力間の対応性を明確に学習するために,マルチスケール構造内に埋め込まれたローカルトランスフォーマーネットワークを提案する。
論文参考訳（メタデータ） (2021-06-08T02:51:45Z)
Look Closer to Segment Better: Boundary Patch Refinement for Instance Segmentation [51.59290734837372]
境界品質を改善するために,概念的にシンプルで効果的な後処理改善フレームワークを提案する。提案されたBPRフレームワークは、CityscapesベンチマークのMask R-CNNベースラインを大幅に改善する。 BPRフレームワークをPolyTransform + SegFixベースラインに適用することで、Cityscapesのリーダーボードで1位に到達しました。
論文参考訳（メタデータ） (2021-04-12T07:10:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。