論文の概要: Bridging Geometric and Semantic Foundation Models for Generalized Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2505.23400v1
- Date: Thu, 29 May 2025 12:38:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.852535
- Title: Bridging Geometric and Semantic Foundation Models for Generalized Monocular Depth Estimation
- Title(参考訳): 一般化された単眼深度推定のためのブリッジング幾何学的および意味的基礎モデル
- Authors: Sanggyun Ma, Wonjoon Choi, Jihun Park, Jaeyeul Kim, Seunghun Lee, Jiwan Seo, Sunghoon Im,
- Abstract要約: BriGeSは、基礎モデル内の幾何学的および意味的な情報を融合して、モノクル深さ推定を強化する。
BriGeSは、事前訓練された基礎モデルを利用して、ブリッジングゲートのみをトレーニングする戦略を採用している。
複数の挑戦的なデータセットに対する実験では、複雑なシーンに対して、BriGeSがMDEの最先端メソッドより優れていることが示されている。
- 参考スコア(独自算出の注目度): 12.536672218323822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Bridging Geometric and Semantic (BriGeS), an effective method that fuses geometric and semantic information within foundation models to enhance Monocular Depth Estimation (MDE). Central to BriGeS is the Bridging Gate, which integrates the complementary strengths of depth and segmentation foundation models. This integration is further refined by our Attention Temperature Scaling technique. It finely adjusts the focus of the attention mechanisms to prevent over-concentration on specific features, thus ensuring balanced performance across diverse inputs. BriGeS capitalizes on pre-trained foundation models and adopts a strategy that focuses on training only the Bridging Gate. This method significantly reduces resource demands and training time while maintaining the model's ability to generalize effectively. Extensive experiments across multiple challenging datasets demonstrate that BriGeS outperforms state-of-the-art methods in MDE for complex scenes, effectively handling intricate structures and overlapping objects.
- Abstract(参考訳): 基礎モデル内に幾何学的・意味的な情報を融合してモノクロ深度推定(MDE)を強化する効果的な方法であるBriGeS(Bridging Geometric and Semantic)を提案する。
BriGeSの中心はBridging Gateで、深度とセグメンテーションの基礎モデルの相補的な強みを統合している。
この積分は、我々のアテンション温度スケーリング技術によりさらに洗練されている。
注意機構の焦点を微調整し、特定の特徴への過度な集中を防ぎ、多様な入力間でのバランスの取れた性能を確保する。
BriGeSは、事前訓練された基礎モデルを利用して、ブリッジングゲートのみをトレーニングする戦略を採用している。
この方法は、モデルを効果的に一般化する能力を維持しながら、リソース要求とトレーニング時間を著しく短縮する。
複数の挑戦的なデータセットにわたる大規模な実験により、BriGeSは複雑なシーンに対してMDEの最先端の手法より優れており、複雑な構造や重複するオブジェクトを効果的に扱うことが示されている。
関連論文リスト
- PRISM: Probabilistic Representation for Integrated Shape Modeling and Generation [79.46526296655776]
PRISMは、カテゴリー拡散モデルと統計的形状モデル(SSM)とガウス混合モデル(GMM)を統合した3次元形状生成の新しいアプローチである
本手法では,構成SSMを用いて部分レベルの幾何学的変動をキャプチャし,GMMを用いて連続空間における部分意味を表現する。
提案手法は,パートレベルの操作の品質と制御性の両方において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-04-06T11:48:08Z) - DuCos: Duality Constrained Depth Super-Resolution via Foundation Model [56.88399488384106]
ラグランジアン双対性理論に基づく新しい深度超解像フレームワークであるDuCosを紹介する。
DuCosは、ファンデーションモデルをプロンプトとして、さまざまなシナリオにおける一般化を著しく改善した最初の企業だ。
論文 参考訳(メタデータ) (2025-03-06T07:36:45Z) - GCE-Pose: Global Context Enhancement for Category-level Object Pose Estimation [52.910282443646864]
モデルフリーなカテゴリレベルのポーズ推定における重要な課題は、特定のカテゴリ内の様々なインスタンスにまたがって一般化されるコンテキストオブジェクトの特徴の抽出である。
GCE-Poseは、カテゴリレベルのグローバルコンテキストを予め統合することにより、新規インスタンスのポーズ推定を強化する手法である。
論文 参考訳(メタデータ) (2025-02-06T18:35:13Z) - A Hybrid Virtual Element Method and Deep Learning Approach for Solving One-Dimensional Euler-Bernoulli Beams [0.0]
深層学習にVirtual Element Method(VEM)を統合するハイブリッドフレームワークを提案する。
主な目的は、様々な物質変位のフィールドを予測できるデータ駆動サロゲートモデルを探索することである。
ニューラルネットワークアーキテクチャを導入して、ノイズと物質固有のデータを別々に処理し、複雑なインタラクションを効果的にキャプチャする。
論文 参考訳(メタデータ) (2025-01-12T20:34:26Z) - Bridging Geometric States via Geometric Diffusion Bridge [79.60212414973002]
本稿では,初期および対象の幾何状態を正確にブリッジする新しい生成モデリングフレームワークであるGeometric Diffusion Bridge (GDB)を紹介する。
GDBは、幾何学的状態の接続のためにDoobの$h$-transformの修正版から派生した同変拡散ブリッジを使用している。
我々はGDBが既存の最先端のアプローチを超越し、幾何学的状態を正確にブリッジするための新しい経路を開くことを示す。
論文 参考訳(メタデータ) (2024-10-31T17:59:53Z) - High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - Self-Supervised Geometry-Guided Initialization for Robust Monocular Visual Odometry [9.79428015716139]
本稿では,屋外ベンチマークにおける主要な障害事例を分析し,学習ベースSLAMモデル(DROID-SLAM)の欠点を明らかにする。
本研究では, 凍結した大規模単分子深度推定を利用して, 密集束調整過程を初期化する自己教師付き事前計算手法を提案する。
その単純さにもかかわらず,提案手法は, DDADベンチマークと同様に, KITTIオドメトリーの大幅な改善を示す。
論文 参考訳(メタデータ) (2024-06-03T01:59:29Z) - GeoMask3D: Geometrically Informed Mask Selection for Self-Supervised Point Cloud Learning in 3D [18.33878596057853]
ポイントクラウドのための自己教師型学習に先駆的なアプローチを導入する。
我々は、Masked Autosの効率を高めるためにGeoMask3D(GM3D)と呼ばれる幾何学的に情報を得たマスク選択戦略を採用した。
論文 参考訳(メタデータ) (2024-05-20T23:53:42Z) - Manifold Integrated Gradients: Riemannian Geometry for Feature Attribution [8.107199775668942]
Integrated Gradients (IG)は、ブラックボックス深層学習モデルの一般的な特徴属性法である。
我々は、IGに関連する2つの主要な課題に対処する。ノイズの多い特徴可視化の生成と、敵の帰属攻撃に対する脆弱性である。
提案手法は,データ多様体の内在的幾何とより密接に関連し,経路に基づく特徴属性の適応を伴う。
論文 参考訳(メタデータ) (2024-05-16T04:13:17Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。