論文の概要: DepthAgent: Towards Better Universal Depth Estimation via Sample-wise Expert Selection
- arxiv url: http://arxiv.org/abs/2605.23281v1
- Date: Fri, 22 May 2026 06:47:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.227404
- Title: DepthAgent: Towards Better Universal Depth Estimation via Sample-wise Expert Selection
- Title(参考訳): DepthAgent: サンプルワイドエキスパート選択によるより優れたユニバーサル深度推定を目指して
- Authors: Jie Zhu, Girish Chandar Ganesan, Xiaoming Liu,
- Abstract要約: 深度の専門家は、強いサンプルワイドの相補性を示す。
適応的な単眼深度推定のための視覚言語エージェントであるtextbfours を提案する。
- 参考スコア(独自算出の注目度): 15.784378187553806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular metric depth estimation has achieved strong progress with large-scale training and universal-camera modeling, yet robust deployment across diverse camera settings, such as perspective, fisheye, and panoramic images, remains challenging. Existing methods typically rely on a single depth estimator, overlooking that different models encode different camera assumptions and perform best under different input domains. In this paper, we show that depth experts exhibit strong sample-wise complementarity: model preference is highly correlated with camera geometry, and multi-model fusion brings the largest gains on difficult samples where individual experts are unreliable. Motivated by these observations, we propose \textbf{\ours}, a vision-language agent for adaptive monocular depth estimation. DepthAgent treats existing depth models as frozen tools and learns to analyze scene and camera cues, invoke suitable experts through multi-turn tool utilization, and select or fuse their predictions for each input. To optimize such discrete decision-making toward dense geometric quality, we design a multi-reward reinforcement fine-tuning scheme that jointly encourages valid tool execution, camera/scene analysis, expert-selection quality, and inference efficiency. Extensive experiments across perspective, fisheye, and panoramic benchmarks show that \ours consistently outperforms individual experts, fixed model fusion, and different selection strategies, with strong improvements on challenging samples, highlighting the critical role of expert selection and fusion. The code and model will be released upon publication.
- Abstract(参考訳): 大規模トレーニングとユニバーサルカメラモデリングにより、単眼のメートル法深度推定は大きな進歩を遂げたが、視点、魚眼、パノラマ画像といった様々なカメラ設定にまたがるロバストな展開は依然として困難である。
既存の手法は1つの深さ推定器に依存しており、異なるモデルが異なるカメラの仮定を符号化し、異なる入力領域下で最高の性能を発揮するのを見落としている。
本稿では, 深度の専門家は, カメラ形状とモデル嗜好の相関が強く, 多モデル融合は, 個々の専門家が信頼できない困難なサンプルに対して最大の利益をもたらすことを示す。
これらの観測により,適応的な単眼深度推定のための視覚言語エージェントである「textbf{\ours」を提案する。
DepthAgentは、既存の深度モデルをフリーズツールとして扱い、シーンやカメラの手がかりを分析し、マルチターンツールの利用を通じて適切な専門家を呼び出して、入力毎に予測を選択したりフューズしたりする。
このような離散的な意思決定を高密度な幾何学的品質に最適化するために、有効なツールの実行、カメラ/シーン分析、エキスパート選択品質、推論効率を共同で促進するマルチリワード強化微調整スキームを設計する。
パースペクティブ、魚眼、パノラマベンチマークにわたる広範な実験により、Shaoursは個々の専門家、固定モデル融合、異なる選択戦略を一貫して上回り、挑戦的なサンプルを強く改善し、専門家の選択と融合の重要な役割を強調している。
コードとモデルは公開時に公開される。
関連論文リスト
- CalibAnyView: Beyond Single-View Camera Calibration in the Wild [59.66873936532375]
カメラキャリブレーションは、信頼性の高い幾何学的知覚の基本的な前提条件である。
近年の学習に基づく手法では、単一ビューの校正には有望な結果が得られたが、本質的に複数のビューにまたがる幾何的整合性は無視されている。
任意の数の入力ビューをサポートする統一的な定式化であるCalibAnyViewを紹介します。
論文 参考訳(メタデータ) (2026-05-14T09:32:12Z) - PSR: Scaling Multi-Subject Personalized Image Generation with Pairwise Subject-Consistency Rewards [86.1965460124838]
スケーラブルなマルチオブジェクトデータ生成パイプラインを提案する。
まず、単一オブジェクトのパーソナライズモデルを用いて、マルチイメージおよびマルチオブジェクトシナリオの知識を得る。
主観的整合性とテキスト制御性を両立させるため,ペアワイズ・サブジェスト・コンシスタンス・リワードを設計する。
論文 参考訳(メタデータ) (2025-12-01T03:25:49Z) - Can Large Pretrained Depth Estimation Models Help With Image Dehazing? [35.4696172315888]
現実のシーンにおけるヘイズの性質が空間的に異なるため、画像のデハージングは依然として困難な問題である。
本稿では,様々なデハージングアーキテクチャとシームレスに統合可能なRGB-D融合モジュールを提案する。
論文 参考訳(メタデータ) (2025-08-01T15:14:45Z) - Adaptive Fusion of Single-View and Multi-View Depth for Autonomous
Driving [22.58849429006898]
現在のマルチビュー深度推定法やシングルビューおよびマルチビュー融合法は、ノイズのあるポーズ設定で失敗する。
本稿では,高信頼度なマルチビューと単一ビューの結果を適応的に統合する単一ビュー・多ビュー融合深度推定システムを提案する。
本手法は,ロバストネス試験において,最先端のマルチビュー・フュージョン法より優れる。
論文 参考訳(メタデータ) (2024-03-12T11:18:35Z) - Robust Self-Supervised Extrinsic Self-Calibration [25.727912226753247]
マルチカメラによるビデオからの単眼深度推定は、環境を判断する上で有望な方法である。
本稿では,自己教師型単眼深度と自我運動学習の原理を基礎として,外因性キャリブレーションの新たな手法を提案する。
論文 参考訳(メタデータ) (2023-08-04T06:20:20Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Video Depth Estimation by Fusing Flow-to-Depth Proposals [65.24533384679657]
本稿では,映像深度推定のためのフロー・ツー・ディープス・レイヤの異なる手法を提案する。
モデルは、フロー・トゥ・ディープス層、カメラ・ポーズ・リファインメント・モジュール、ディープ・フュージョン・ネットワークから構成される。
提案手法は,最先端の深度推定法より優れ,合理的なデータセット一般化能力を有する。
論文 参考訳(メタデータ) (2019-12-30T10:45:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。