論文の概要: GeoMoE: Divide-and-Conquer Motion Field Modeling with Mixture-of-Experts for Two-View Geometry
- arxiv url: http://arxiv.org/abs/2508.00592v1
- Date: Fri, 01 Aug 2025 12:45:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.881433
- Title: GeoMoE: Divide-and-Conquer Motion Field Modeling with Mixture-of-Experts for Two-View Geometry
- Title(参考訳): GeoMoE:2次元幾何の混合実験による除算・コンカレント運動場モデリング
- Authors: Jiajun Le, Jiayi Ma,
- Abstract要約: ストリーム化フレームワークであるGeoMoEを用いて2次元形状の運動場モデリングを再構築する。
我々はまず,不整合確率信号を利用した確率的事前誘導分解戦略を考案し,運動場の構造を考慮した分解を行う。
次に,空間コンテキストやチャネルセマンティックパスに沿って各サブフィールドを拡大するMoE拡張Biパス整流器を提案する。
- 参考スコア(独自算出の注目度): 26.926348149152656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in two-view geometry increasingly emphasizes enforcing smoothness and global consistency priors when estimating motion fields between pairs of images. However, in complex real-world scenes, characterized by extreme viewpoint and scale changes as well as pronounced depth discontinuities, the motion field often exhibits diverse and heterogeneous motion patterns. Most existing methods lack targeted modeling strategies and fail to explicitly account for this variability, resulting in estimated motion fields that diverge from their true underlying structure and distribution. We observe that Mixture-of-Experts (MoE) can assign dedicated experts to motion sub-fields, enabling a divide-and-conquer strategy for heterogeneous motion patterns. Building on this insight, we re-architect motion field modeling in two-view geometry with GeoMoE, a streamlined framework. Specifically, we first devise a Probabilistic Prior-Guided Decomposition strategy that exploits inlier probability signals to perform a structure-aware decomposition of the motion field into heterogeneous sub-fields, sharply curbing outlier-induced bias. Next, we introduce an MoE-Enhanced Bi-Path Rectifier that enhances each sub-field along spatial-context and channel-semantic paths and routes it to a customized expert for targeted modeling, thereby decoupling heterogeneous motion regimes, suppressing cross-sub-field interference and representational entanglement, and yielding fine-grained motion-field rectification. With this minimalist design, GeoMoE outperforms prior state-of-the-art methods in relative pose and homography estimation and shows strong generalization. The source code and pre-trained models are available at https://github.com/JiajunLe/GeoMoE.
- Abstract(参考訳): 2ビュー幾何の最近の進歩は、画像間の運動場を推定する際に、滑らかさと大域的な一貫性を強制することを強調している。
しかし、極端な視点とスケールの変化を特徴とする複雑な現実世界のシーンでは、深度不連続が顕著であるのと同様に、運動場は多様で異質な動きパターンを示すことが多い。
既存のほとんどの手法は、ターゲットとなるモデリング戦略を欠き、この変数を明示的に説明することができず、その結果、真の基盤構造と分布から分岐する推定運動場が生じる。
我々は、Mixture-of-Experts (MoE) が専用の専門家を移動サブフィールドに割り当てることによって、異種運動パターンの分割とコンカマー戦略を可能にすることを観察した。
この知見に基づいて、2次元幾何における運動場モデリングを、合理化フレームワークGeoMoEを用いて再構築する。
具体的には、不整合確率信号を利用した確率的事前誘導分解戦略を最初に考案し、不整合確率信号を用いて不均一なサブフィールドへの運動場の構造的分解を行い、不整合バイアスを鋭く抑制する。
次に、空間コンテキストやチャネルセマンティックパスに沿って各サブフィールドを強化するMoE拡張Biパス整流器を導入し、ターゲットモデリングのためのカスタマイズされた専門家にルーティングすることで、異種運動系を分離し、サブフィールド間の干渉や表現の絡み合いを抑え、微粒な運動場修正をもたらす。
この最小限の設計により、GeoMoEは相対的なポーズとホモグラフィー推定において最先端の手法よりも優れ、強力な一般化を示す。
ソースコードと事前訓練されたモデルはhttps://github.com/JiajunLe/GeoMoE.comで入手できる。
関連論文リスト
- Geological Everything Model 3D: A Promptable Foundation Model for Unified and Zero-Shot Subsurface Understanding [8.832957977030198]
Geological Everything Model 3D (GEM) は、タスクを迅速な条件付き推論として再構成する統合生成アーキテクチャである。
GEMは、新しいタスクやデータソースを再訓練することなく、不均一なプロンプト型を持つタスク間でゼロショットの一般化を実現する。
GEMは、火星レーダー層序解析、沈み込み帯の構造解釈、完全な地震層序解釈、地体セグメンテーション、資産モデリングなど、調査やタスクに幅広い適用性を示す。
論文 参考訳(メタデータ) (2025-07-01T04:14:13Z) - Self-Supervised Multi-Part Articulated Objects Modeling via Deformable Gaussian Splatting and Progressive Primitive Segmentation [23.18517560629462]
DeGSSは,物体を変形可能な3次元ガウス場として符号化し,幾何学,外観,動きを1つのコンパクト表現に埋め込む統一フレームワークである。
一般化とリアリズムを評価するために、合成PartNet-Mobilityベンチマークを拡張し、RGBキャプチャと正確にリバースエンジニアリングされた3Dモデルを組み合わせたリアル・トゥ・シムデータセットRS-Artをリリースする。
論文 参考訳(メタデータ) (2025-06-11T12:32:16Z) - DSG-World: Learning a 3D Gaussian World Model from Dual State Videos [14.213608866611784]
本稿では,Dual Stateの観測から3次元ガウス世界モデルを明示的に構築する,新しいエンドツーエンドフレームワークDSG-Worldを提案する。
提案手法は、二分割対応ガウス場を構築し、双方向の測光および意味的整合性を実現する。
論文 参考訳(メタデータ) (2025-06-05T16:33:32Z) - DiffusionSfM: Predicting Structure and Motion via Ray Origin and Endpoint Diffusion [53.70278210626701]
マルチビュー画像から3次元シーン形状とカメラポーズを直接推定するデータ駆動型マルチビュー推論手法を提案する。
我々のフレームワークであるDiffusionSfMは、シーン幾何学とカメラを、グローバルフレーム内のピクセルワイズ線源とエンドポイントとしてパラメータ化します。
我々は、DiffusionSfMを合成データセットと実データセットの両方で実証的に検証し、古典的および学習ベースのアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-05-08T17:59:47Z) - PolypFlow: Reinforcing Polyp Segmentation with Flow-Driven Dynamics [25.69584903128262]
PolypFLowは、セグメンテーションの洗練に物理にインスパイアされた最適化力学を注入するフローマッチング拡張アーキテクチャである。
我々はPolypFLowが様々な照明シナリオで一貫した性能を維持しながら最先端を実現していることを示す。
論文 参考訳(メタデータ) (2025-02-26T10:48:33Z) - Multi-Agent Path Finding in Continuous Spaces with Projected Diffusion Models [57.45019514036948]
MAPF(Multi-Agent Path Finding)は、ロボット工学における基本的な問題である。
連続空間におけるMAPFの拡散モデルと制約付き最適化を統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-23T21:27:19Z) - GeoMFormer: A General Architecture for Geometric Molecular Representation Learning [84.02083170392764]
我々はこの目的を達成するためにGeoMFormerと呼ばれるトランスフォーマーに基づく新しい分子モデルを導入する。
我々は,GeoMFormerが,異なる型やスケールの不変タスクと同変タスクの両方において,高い性能を達成することを示す。
論文 参考訳(メタデータ) (2024-06-24T17:58:13Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z) - Co-visual pattern augmented generative transformer learning for
automobile geo-localization [12.449657263683337]
クロスビュージオローカライゼーション(CVGL)は、地上カメラの地理的位置を、巨大なジオタグ付き空中画像とマッチングすることによって推定することを目的としている。
CVGLのための相互生成型トランスフォーマー学習(MGTL)という,トランスフォーマーと組み合わせたクロスビュー知識生成技術を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T07:29:02Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。