論文の概要: Gaussian-Constrained LeJEPA Representations for Unsupervised Scene Discovery and Pose Consistency
- arxiv url: http://arxiv.org/abs/2602.07016v1
- Date: Sat, 31 Jan 2026 19:52:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.356035
- Title: Gaussian-Constrained LeJEPA Representations for Unsupervised Scene Discovery and Pose Consistency
- Title(参考訳): ガウス制約されたLeJEPA表現による非教師なしシーン発見と詩の一貫性
- Authors: Mohsen Mostafa,
- Abstract要約: 本稿では,これらの課題に対処するために,LeJEPA(Joint Embedding Predictive Architecture)にヒントを得たガウス制約表現の適用について検討する。
学習画像の埋め込みに等方的ガウス的制約を課すLeJEPAにインスパイアされたアプローチで, 段階的に改良されたパイプラインを3つ提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised 3D scene reconstruction from unstructured image collections remains a fundamental challenge in computer vision, particularly when images originate from multiple unrelated scenes and contain significant visual ambiguity. The Image Matching Challenge 2025 (IMC2025) highlights these difficulties by requiring both scene discovery and camera pose estimation under real-world conditions, including outliers and mixed content. This paper investigates the application of Gaussian-constrained representations inspired by LeJEPA (Joint Embedding Predictive Architecture) to address these challenges. We present three progressively refined pipelines, culminating in a LeJEPA-inspired approach that enforces isotropic Gaussian constraints on learned image embeddings. Rather than introducing new theoretical guarantees, our work empirically evaluates how these constraints influence clustering consistency and pose estimation robustness in practice. Experimental results on IMC2025 demonstrate that Gaussian-constrained embeddings can improve scene separation and pose plausibility compared to heuristic-driven baselines, particularly in visually ambiguous settings. These findings suggest that theoretically motivated representation constraints offer a promising direction for bridging self-supervised learning principles and practical structure-from-motion pipelines.
- Abstract(参考訳): 無秩序な画像コレクションからの教師なし3Dシーンの再構築は、特に複数の無関係なシーンから画像が生まれ、視覚的曖昧さが顕著である場合、コンピュータビジョンの基本的な課題である。
Image Matching Challenge 2025 (IMC2025)は、シーン発見とカメラポーズ推定の両方を現実世界の条件下で必要とすることで、これらの困難を強調している。
本稿では,これらの課題に対処するために,LeJEPA(Joint Embedding Predictive Architecture)にヒントを得たガウス制約表現の適用について検討する。
学習画像の埋め込みに等方的ガウス的制約を課すLeJEPAにインスパイアされたアプローチで, 段階的に改良されたパイプラインを3つ提示する。
新たな理論的保証を導入するのではなく、これらの制約がクラスタリングの一貫性にどのように影響するかを実証的に評価し、実際に評価する。
IMC2025の実験結果は、特に視覚的曖昧な環境では、ガウス制約の埋め込みは、ヒューリスティック駆動のベースラインに比べてシーン分離を改善し、妥当性を示すことを示した。
これらの結果から,理論的に動機付けられた表現制約は,自己指導型学習原則や実用的な移動パイプライン構築に有望な方向性をもたらすことが示唆された。
関連論文リスト
- Rectifying Latent Space for Generative Single-Image Reflection Removal [16.341477336909765]
単一画像の除去は、既存の手法が崩壊した領域の構成を推論するのに苦労する、非常に不適切な問題である。
この研究は、編集目的の潜在拡散モデルを再設計し、高度に曖昧で層状な画像入力を効果的に知覚し、処理する。
論文 参考訳(メタデータ) (2025-12-06T09:16:14Z) - The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment [105.31858867473845]
ImageCriticはエージェントフレームワークに統合され、不整合を自動的に検出し、マルチラウンドおよびローカル編集で修正する。
実験では、ImageCriticは様々なカスタマイズされた生成シナリオで詳細に関連する問題を効果的に解決することができ、既存のメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-11-25T18:40:25Z) - Revisiting Reconstruction-based AI-generated Image Detection: A Geometric Perspective [50.83711509908479]
幾何学的観点からの再構成誤差に対するヤコビアンスペクトル下界の導入について述べる。
再構成多様体上の実画像は非自明な誤差下界を示し、多様体上の生成された画像はゼロに近い誤差を持つことを示す。
本稿では,構造化編集操作を活用することで動的再構成誤差を計算できるReGapを提案する。
論文 参考訳(メタデータ) (2025-10-29T03:45:03Z) - Zero-P-to-3: Zero-Shot Partial-View Images to 3D Object [55.93553895520324]
そこで本研究では,局所的な高密度観測と複数ソースの事前情報を統合した学習自由手法を提案する。
本手法では, DDIMサンプリングにおいて, これらの先行情報を効果的に整合させる融合方式を導入し, 多視点一貫した画像を生成し, 見えない視界を監督する。
論文 参考訳(メタデータ) (2025-05-29T03:51:37Z) - LPA3D: 3D Room-Level Scene Generation from In-the-Wild Images [23.258004561060563]
LPA-GAN(LPA-GAN)は、LPAのカメラポーズの先行を推定するために、特定の修正を組み込んだ新しいNeRFベースの生成手法である。
本手法は,ビュー・ツー・ビューの整合性とセマンティック・ノーマル性に優れる。
論文 参考訳(メタデータ) (2025-04-03T07:18:48Z) - Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints [15.541287957548771]
本稿では,粗大な一貫性制約を持つビジュアルグラウンドアーキテクチャを提案する。
暗黙的かつ明示的なモデリングアプローチを2段階のフレームワークに統合する。
最先端のREC法とRIS法を実質的なマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2025-01-12T04:30:13Z) - InDeed: Interpretable image deep decomposition with guaranteed generalizability [28.595151003310452]
画像分解は、イメージを基本成分に分解することを目的としている。
深層学習はそのようなタスクには強力だが、解釈可能性と一般化性に焦点を合わせることはめったにない。
本稿では,階層型ベイズモデルとディープラーニングを組み合わせた,解釈可能な深層画像分解のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-02T07:58:26Z) - UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image [86.7128543480229]
見えないオブジェクトのポーズ推定方法はCADモデルや複数の参照ビューに依存することが多い。
参照取得を簡略化するために,未提示のRGB-D参照画像を用いて未確認オブジェクトのポーズを推定することを目的とする。
単参照型オブジェクトポーズ推定のための新しいアプローチとベンチマークをUNOPoseと呼ぶ。
論文 参考訳(メタデータ) (2024-11-25T05:36:00Z) - Manifold Constraint Regularization for Remote Sensing Image Generation [34.68714863219855]
GAN(Generative Adversarial Networks)は、リモートセンシング領域における顕著な成果を示している。
本稿では,リモートセンシング画像の特徴を分析し,多様体制約正規化を提案する。
論文 参考訳(メタデータ) (2023-05-31T02:35:41Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z) - Peeking into occluded joints: A novel framework for crowd pose
estimation [88.56203133287865]
OPEC-NetはイメージガイドされたプログレッシブGCNモジュールで、推論の観点から見えない関節を推定する。
OCPoseは、隣接するインスタンス間の平均IoUに対して、最も複雑なOccluded Poseデータセットである。
論文 参考訳(メタデータ) (2020-03-23T19:32:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。