論文の概要: Robust Image Stitching with Optimal Plane
- arxiv url: http://arxiv.org/abs/2508.05903v1
- Date: Thu, 07 Aug 2025 23:53:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.031418
- Title: Robust Image Stitching with Optimal Plane
- Title(参考訳): 最適平面を用いたロバスト画像スティッチ
- Authors: Lang Nie, Yuan Mei, Kang Liao, Yunqiu Xu, Chunyu Lin, Bin Xiao,
- Abstract要約: textitRopStitchは、堅牢性と自然性の両方を備えた教師なしの深層画像縫合フレームワークである。
textitRopStitchは、特にシーンの堅牢性とコンテンツ自然性において、既存のメソッドよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 39.80133570371559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present \textit{RopStitch}, an unsupervised deep image stitching framework with both robustness and naturalness. To ensure the robustness of \textit{RopStitch}, we propose to incorporate the universal prior of content perception into the image stitching model by a dual-branch architecture. It separately captures coarse and fine features and integrates them to achieve highly generalizable performance across diverse unseen real-world scenes. Concretely, the dual-branch model consists of a pretrained branch to capture semantically invariant representations and a learnable branch to extract fine-grained discriminative features, which are then merged into a whole by a controllable factor at the correlation level. Besides, considering that content alignment and structural preservation are often contradictory to each other, we propose a concept of virtual optimal planes to relieve this conflict. To this end, we model this problem as a process of estimating homography decomposition coefficients, and design an iterative coefficient predictor and minimal semantic distortion constraint to identify the optimal plane. This scheme is finally incorporated into \textit{RopStitch} by warping both views onto the optimal plane bidirectionally. Extensive experiments across various datasets demonstrate that \textit{RopStitch} significantly outperforms existing methods, particularly in scene robustness and content naturalness. The code is available at {\color{red}https://github.com/MmelodYy/RopStitch}.
- Abstract(参考訳): 本稿では,頑健さと自然さを両立させた教師なしの深層画像縫合フレームワークであるtextit{RopStitch}について述べる。
そこで本研究では,2重ブランチアーキテクチャによる画像縫合モデルに,コンテンツ知覚の普遍的事前認識を組み込むことを提案する。
粗い特徴と細かい特徴を別々に捉え、それらを統合して、さまざまな現実世界のシーンにまたがって、高度に一般化可能なパフォーマンスを実現する。
具体的には、二分岐モデルは、意味的に不変な表現をキャプチャする事前訓練された分岐と、微粒な識別特徴を抽出する学習可能な分岐からなり、相関レベルで制御可能な因子によって全体へマージされる。
また,コンテントアライメントと構造保存は相反することが多いことから,この矛盾を解消するための仮想最適平面の概念を提案する。
そこで我々は, この問題を, ホモグラフィ分解係数を推定するプロセスとしてモデル化し, 最適平面を特定するための反復係数予測器と最小の意味歪み制約を設計する。
このスキームは、両方のビューを最適平面に双方向にワープすることで、最終的に \textit{RopStitch} に組み込まれる。
様々なデータセットにわたる大規模な実験により、既存の手法、特にシーンのロバスト性や内容の自然性において、 \textit{RopStitch} が著しく優れていたことが示されている。
コードは {\color{red}https://github.com/MmelodYy/RopStitch}で公開されている。
関連論文リスト
- StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models [98.72926158261937]
本稿では,Visual AutoRegressive モデルのためのトレーニングフリートークン解析フレームワークを提案する。
我々は局所的なテクスチャの詳細を捉えるために軽量なハイパスフィルタを使用し、グローバルな構造情報を保存するために主成分分析(PCA)を活用している。
スパーストークンの下で有効な次世代の予測を維持するために,近接した特徴伝達戦略を導入する。
論文 参考訳(メタデータ) (2026-03-02T11:35:05Z) - Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion [31.189038928192648]
Co2Sは半教師付きRSセグメンテーションフレームワークで、ビジョン言語モデルと自己教師型モデルとを融合する。
テキスト埋め込みと学習可能なクエリを利用した,明示的でシンプルなセマンティックコガイダンス機構が導入された。
6つの一般的なデータセットに対する実験は,提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2025-12-28T18:24:19Z) - Lotus-2: Advancing Geometric Dense Prediction with Powerful Image Generative Model [32.831576387973875]
安定, 高精度, 微粒な幾何的密度予測のための2段階決定的フレームワークを提案する。
特に、第1段階では、コア予測器は、クリーンデータ目的の単一ステップ決定論的定式化を採用する。
第2段階では、ディテールシャープナーは、コア予測器によって定義される多様体内で制約付き多段階整流補正を行う。
論文 参考訳(メタデータ) (2025-11-30T18:57:25Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - Towards Robust and Expressive Whole-body Human Pose and Shape Estimation [51.457517178632756]
全体のポーズと形状の推定は、単眼画像から人体全体の異なる振る舞いを共同で予測することを目的としている。
既存の手法では、既存のシナリオの複雑さの下で、しばしば劣化したパフォーマンスを示す。
全身のポーズと形状推定の堅牢性を高める新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-12-14T08:17:42Z) - Content-aware Warping for View Synthesis [110.54435867693203]
本稿では,比較的大きな近傍の画素の重みを,軽量ニューラルネットワークによる文脈情報から適応的に学習するコンテンツ認識ワープを提案する。
この学習可能なワープモジュールに基づいて、2つのソースビューから新しいビューを合成するエンド・ツー・エンドの学習ベースのフレームワークを提案する。
広いベースラインと非構造的多視点データセットを有する構造的光フィールドデータセットの実験結果から,提案手法は,定量的かつ視覚的に,最先端の手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-01-22T11:35:05Z) - Consistency Regularization for Deep Face Anti-Spoofing [69.70647782777051]
顔認証システムでは、顔認証(FAS)が重要な役割を担っている。
このエキサイティングな観察によって、異なる視点の特徴整合性を促進することが、FASモデルを促進するための有望な方法かもしれないと推測する。
FASにおけるEPCR(Embeddding-level and Prediction-level Consistency Regularization)とEPCR(Embeddding-level Consistency Regularization)を併用した。
論文 参考訳(メタデータ) (2021-11-24T08:03:48Z) - Bi-level Feature Alignment for Versatile Image Translation and
Manipulation [88.5915443957795]
GAN(Generative Adversarial Network)は画像翻訳と操作において大きな成功を収めている。
忠実なスタイル制御を備えた高忠実な画像生成は、コンピュータビジョンにおいて依然として大きな課題である。
本稿では,高精度なセマンティック・スタイル・ガイダンスを実現する多機能な画像翻訳・操作フレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-07T05:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。