論文の概要: DuCos: Duality Constrained Depth Super-Resolution via Foundation Model
- arxiv url: http://arxiv.org/abs/2503.04171v1
- Date: Thu, 06 Mar 2025 07:36:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 17:59:00.719361
- Title: DuCos: Duality Constrained Depth Super-Resolution via Foundation Model
- Title(参考訳): DuCos: ファンデーションモデルによる二重性制約された深度超解法
- Authors: Zhiqiang Yan, Zhengxue Wang, Haoye Dong, Jun Li, Jian Yang, Gim Hee Lee,
- Abstract要約: ラグランジアン双対性理論に基づく新しい深度超解像フレームワークであるDuCosを紹介する。
DuCosは、ファンデーションモデルをプロンプトとして、さまざまなシナリオにおける一般化を著しく改善した最初の企業だ。
- 参考スコア(独自算出の注目度): 56.88399488384106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce DuCos, a novel depth super-resolution framework grounded in Lagrangian duality theory, offering a flexible integration of multiple constraints and reconstruction objectives to enhance accuracy and robustness. Our DuCos is the first to significantly improve generalization across diverse scenarios with foundation models as prompts. The prompt design consists of two key components: Correlative Fusion (CF) and Gradient Regulation (GR). CF facilitates precise geometric alignment and effective fusion between prompt and depth features, while GR refines depth predictions by enforcing consistency with sharp-edged depth maps derived from foundation models. Crucially, these prompts are seamlessly embedded into the Lagrangian constraint term, forming a synergistic and principled framework. Extensive experiments demonstrate that DuCos outperforms existing state-of-the-art methods, achieving superior accuracy, robustness, and generalization. The source codes and pre-trained models will be publicly available.
- Abstract(参考訳): ラグランジアン双対性理論に基づく新しい深度超解像フレームワークであるDuCosを導入し、精度と堅牢性を高めるために複数の制約と再構成目的の柔軟な統合を提供する。
私たちのDuCosは、ファンデーションモデルをプロンプトとして、さまざまなシナリオにおける一般化を著しく改善した初めてのものです。
プロンプト設計は、相関核融合 (CF) とグラディエント・レギュレーション (GR) の2つの重要なコンポーネントで構成されている。
CFはプロンプトと深さの特徴の正確な幾何的アライメントと効果的な融合を促進する一方、GRは基礎モデルから導出した鋭い深度マップとの整合性によって深度予測を洗練させる。
重要なことに、これらのプロンプトはラグランジュの制約項にシームレスに埋め込まれ、相乗的で原則化された枠組みを形成する。
大規模な実験により、DuCosは既存の最先端手法よりも優れ、精度、堅牢性、一般化に優れることが示された。
ソースコードと事前訓練されたモデルが公開される。
関連論文リスト
- Propagating Sparse Depth via Depth Foundation Model for Out-of-Distribution Depth Completion [33.854696587141355]
本研究では,大規模トレーニングを伴わずに,深度基礎モデルを利用して顕著な堅牢性を実現する新しい深度補修フレームワークを提案する。
具体的には、深度基盤モデルを用いて、RGB画像から構造的・意味的文脈を含む環境条件を抽出し、疎度情報の欠落領域への伝播を誘導する。
我々のフレームワークはOODシナリオにおいて非常によく機能し、既存の最先端の深度補完手法よりも優れています。
論文 参考訳(メタデータ) (2025-08-07T02:38:24Z) - Hyperbolic Deep Learning for Foundation Models: A Survey [16.14776172953206]
大量のデータセットに事前トレーニングされたファンデーションモデルは、さまざまな下流タスクで顕著な成功を収めた。
最近の進歩は、基礎モデルを強化するために双曲型ニューラルネットワークを活用している。
本稿では,双曲型ニューラルネットワークとその基盤モデルの開発について概観する。
論文 参考訳(メタデータ) (2025-07-23T09:50:17Z) - Instruction Learning Paradigms: A Dual Perspective on White-box and Black-box LLMs [29.224895952158274]
両パラダイムの長所をシームレスにマージする新しいフレームワークを導入する。
私たちのアプローチは、最先端のベースラインを一貫して上回ります。
このブラックボックスの初期化と高度なセマンティックリファインメントの融合は、スケーラブルで効率的な解をもたらす。
論文 参考訳(メタデータ) (2025-06-14T14:27:54Z) - Perfecting Depth: Uncertainty-Aware Enhancement of Metric Depth [33.61994004497114]
そこで我々はPerfecting Depthと呼ばれるセンサ深度向上のための新しい2段階フレームワークを提案する。
このフレームワークは拡散モデルの性質を活用し、幾何学的手がかりを保持しながら信頼できない深さ領域を自動的に検出する。
我々のフレームワークは、センサー深度向上のための新しいベースラインを設定し、自動運転、ロボティクス、没入型技術に応用できる可能性がある。
論文 参考訳(メタデータ) (2025-06-05T04:09:11Z) - Depth Anything with Any Prior [64.39991799606146]
Prior Depth Anythingは、深さ測定における不完全だが正確な計量情報と深さ予測における相対的だが完全な幾何学的構造を組み合わせたフレームワークである。
本研究では, 単眼深度推定(MDE)モデルを構築し, 深度推定の固有ノイズを改良する。
われわれのモデルは、7つの現実世界のデータセットにまたがる深度補完、超高解像度、インパインティングという、印象的なゼロショットの一般化を見せている。
論文 参考訳(メタデータ) (2025-05-15T17:59:50Z) - A Fusion-Guided Inception Network for Hyperspectral Image Super-Resolution [4.487807378174191]
我々はFusion-Guided Inception Network (FGIN)と呼ばれる単一画像の超解像モデルを提案する。
具体的には、まずスペクトル空間融合モジュールを用いて、スペクトル情報と空間情報を効果的に統合する。
インセプションのような階層的特徴抽出戦略は、マルチスケール空間依存をキャプチャするために用いられる。
再構成品質をさらに向上するため,バイリニアと奥行き分離可能な畳み込みを組み合わせた最適化されたアップサンプリングモジュールを組み込んだ。
論文 参考訳(メタデータ) (2025-05-06T11:15:59Z) - Aligning Foundation Model Priors and Diffusion-Based Hand Interactions for Occlusion-Resistant Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置や閉塞が原因で、永続的な課題に直面している。
既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。
本研究では,基礎モデルに基づく2次元先行モデルと拡散に基づく相互作用改善を組み込むことにより,手振りとインタラクションを正確に整合させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-22T14:42:27Z) - Relative Pose Estimation through Affine Corrections of Monocular Depth Priors [69.59216331861437]
本研究では,独立なアフィン(スケールとシフト)のあいまいさを明示的に考慮した相対ポーズ推定のための3つの解法を開発した。
提案する解法と古典的点ベース解法とエピポーラ制約を組み合わせたハイブリッド推定パイプラインを提案する。
論文 参考訳(メタデータ) (2025-01-09T18:58:30Z) - CoSIGN: Few-Step Guidance of ConSIstency Model to Solve General INverse Problems [3.3969056208620128]
我々は, 高い復元品質を維持しつつ, 推論ステップの境界を1-2 NFEに推し進めることを提案する。
本手法は拡散型逆問題解法における新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-07-17T15:57:50Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - PatchFusion: An End-to-End Tile-Based Framework for High-Resolution
Monocular Metric Depth Estimation [47.53810786827547]
単一画像深度推定はコンピュータビジョンと生成モデルの基本課題である。
PatchFusionは3つのキーコンポーネントを持つタイルベースの新しいフレームワークで、最先端技術を改善する。
UnrealStereo4K、MVS-Synth、Middleburry 2014の実験は、我々のフレームワークが複雑な詳細で高解像度の深度マップを作成できることを実証している。
論文 参考訳(メタデータ) (2023-12-04T19:03:12Z) - Deep Physics-Guided Unrolling Generalization for Compressed Sensing [8.780025933849751]
深部物理を応用した学習手法は高精度で解釈可能な画像再構成を実現する。
このパラダイムの本質的な欠陥は、ディープアルゴリズムによって広く実装されている。
Deep $textbfP$hysics-guided untextbfR$olled recoveryを提案する。
論文 参考訳(メタデータ) (2023-07-18T03:37:10Z) - DeepMLE: A Robust Deep Maximum Likelihood Estimator for Two-view
Structure from Motion [9.294501649791016]
動きからの2次元構造(SfM)は3次元再構成と視覚SLAM(vSLAM)の基礎となる。
本稿では,2視点SfM問題を最大最大推定(MLE)として定式化し,DeepMLEと表記されるフレームワークを用いて解いた。
提案手法は,最先端の2ビューSfM手法よりも精度と一般化能力において優れる。
論文 参考訳(メタデータ) (2022-10-11T15:07:25Z) - High-resolution Face Swapping via Latent Semantics Disentanglement [50.23624681222619]
本稿では,事前学習したGANモデルの事前知識を用いた,新しい高分解能幻覚顔交換法を提案する。
我々は、ジェネレータの進行的な性質を利用して、潜在意味論を明示的に解き放つ。
我々は,2時間制約を潜時空間と画像空間に課すことにより,映像面スワップに拡張する。
論文 参考訳(メタデータ) (2022-03-30T00:33:08Z) - Light Field Reconstruction via Deep Adaptive Fusion of Hybrid Lenses [67.01164492518481]
本稿では,ハイブリットレンズを用いた高分解能光場(LF)画像の再構成問題について検討する。
本稿では,入力の特徴を包括的に活用できる新しいエンドツーエンド学習手法を提案する。
我々のフレームワークは、高解像度なLFデータ取得のコストを削減し、LFデータストレージと送信の恩恵を受ける可能性がある。
論文 参考訳(メタデータ) (2021-02-14T06:44:47Z) - HR-Depth: High Resolution Self-Supervised Monocular Depth Estimation [14.81943833870932]
本稿では,2つの効果的な戦略を持つ改良DepthNet,HR-Depthを提案する。
resnet-18をエンコーダとして使用すると、hr-depthは、高解像度と低解像度の両方で最小パラマエターを持つ、以前の最先端(sota)メソッドをすべて上回る。
論文 参考訳(メタデータ) (2020-12-14T09:15:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。