論文の概要: Emergent Outlier View Rejection in Visual Geometry Grounded Transformers
- arxiv url: http://arxiv.org/abs/2512.04012v1
- Date: Wed, 03 Dec 2025 17:48:25 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:00:07.080423
- Title: Emergent Outlier View Rejection in Visual Geometry Grounded Transformers
- Title(参考訳): 接地変圧器における創発的外乱視の除去
- Authors: Jisang Han, Sunghwan Hong, Jaewoo Jung, Wooseok Jang, Honggyu An, Qianqian Wang, Seungryong Kim, Chen Feng,
- Abstract要約: ノイズ」画像関連入力は、視界がほとんど、あるいは全くないが、他の画像と重なり合うため、Wild画像コレクションからの信頼性の高い3D再構成を妨げている。
従来のStructure-from-Motionパイプラインは、幾何学的検証とoutlier rejectionを通じてそのようなケースを扱う。
本稿では,既存のフィードフォワード再構成モデルであるVGGTが,イントラクタイメージを本質的に区別できることを示す。
- 参考スコア(独自算出の注目度): 45.83800698097105
- License:
- Abstract: Reliable 3D reconstruction from in-the-wild image collections is often hindered by "noisy" images-irrelevant inputs with little or no view overlap with others. While traditional Structure-from-Motion pipelines handle such cases through geometric verification and outlier rejection, feed-forward 3D reconstruction models lack these explicit mechanisms, leading to degraded performance under in-the-wild conditions. In this paper, we discover that the existing feed-forward reconstruction model, e.g., VGGT, despite lacking explicit outlier-rejection mechanisms or noise-aware training, can inherently distinguish distractor images. Through an in-depth analysis under varying proportions of synthetic distractors, we identify a specific layer that naturally exhibits outlier-suppressing behavior. Further probing reveals that this layer encodes discriminative internal representations that enable an effective noise-filtering capability, which we simply leverage to perform outlier-view rejection in feed-forward 3D reconstruction without any additional fine-tuning or supervision. Extensive experiments on both controlled and in-the-wild datasets demonstrate that this implicit filtering mechanism is consistent and generalizes well across diverse scenarios.
- Abstract(参考訳): ワイヤード画像コレクションからの信頼性の高い3D再構成は、視界の重なりがほとんど、あるいは全くない「ノイズの多い」画像関連入力によって妨げられることが多い。
従来のStructure-from-Motionパイプラインは、幾何的検証と外れ値の拒絶によってこのようなケースを処理するが、フィードフォワード3D再構成モデルはこれらの明示的なメカニズムを欠いている。
本稿では,既存のフィードフォワード再構成モデルであるVGGTが,明らかに外乱除去機構やノイズ認識訓練を欠いているにもかかわらず,本質的にイントラクタ画像の区別が可能であることを明らかにする。
本研究は, 合成イントラクタの様々な割合で詳細な解析を行うことで, 自然に外乱抑制挙動を示す特定の層を同定する。
さらに、この層は効果的なノイズフィルタリング機能を実現するための識別的内部表現を符号化しており、我々は、追加の微調整や監督なしにフィードフォワード3次元再構成において、アウトリアビューの拒否を行うことができる。
この暗黙的なフィルタリング機構は一貫性があり、さまざまなシナリオにわたってうまく一般化されている。
関連論文リスト
- Revisiting Reconstruction-based AI-generated Image Detection: A Geometric Perspective [50.83711509908479]
幾何学的観点からの再構成誤差に対するヤコビアンスペクトル下界の導入について述べる。
再構成多様体上の実画像は非自明な誤差下界を示し、多様体上の生成された画像はゼロに近い誤差を持つことを示す。
本稿では,構造化編集操作を活用することで動的再構成誤差を計算できるReGapを提案する。
論文 参考訳(メタデータ) (2025-10-29T03:45:03Z) - RobustGS: Unified Boosting of Feedforward 3D Gaussian Splatting under Low-Quality Conditions [67.48495052903534]
本稿では,汎用的で効率的なマルチビュー機能拡張モジュールRobustGSを提案する。
各種の有害撮像条件下でのフィードフォワード3DGS法のロバスト性を大幅に向上させる。
RobustGSモジュールはプラグイン・アンド・プレイ方式で既存の事前訓練パイプラインにシームレスに統合できる。
論文 参考訳(メタデータ) (2025-08-05T04:50:29Z) - Towards Imperceptible JPEG Image Hiding: Multi-range Representations-driven Adversarial Stego Generation [19.5984577708016]
JPEG画像隠蔽のためのMRAGと呼ばれるマルチレンジ表現駆動型逆スチーゴ生成フレームワークを提案する。
MRAGは、畳み込みの局所レンジ特性と変換器のグローバルレンジモデリングを統合する。
シュプロゲートステガナライザーの分類された特徴に基づいて、カバーとステゴ間の敵対的損失を計算する。
論文 参考訳(メタデータ) (2025-07-11T06:45:07Z) - Transparency Distortion Robustness for SOTA Image Segmentation Tasks [4.1119273264193685]
本研究では,空間的に異なる歪みを持つ既存のデータセットを合成的に拡張する手法を提案する。
実験により, これらの歪み効果は, 最先端セグメンテーションモデルの性能を低下させることが示された。
論文 参考訳(メタデータ) (2024-05-21T15:30:25Z) - Improved Cryo-EM Pose Estimation and 3D Classification through Latent-Space Disentanglement [14.973360669658561]
本稿では,自己教師付き変分オートエンコーダアーキテクチャであるHetACUMNを提案する。
シミュレーションデータセットの結果,HetACUMNは,他のアモータイズ法や非アモータイズ法よりも正確なコンフォメーション分類が得られた。
論文 参考訳(メタデータ) (2023-08-09T13:41:30Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - Test-time Adaptation with Slot-Centric Models [63.981055778098444]
Slot-TTAは、半教師付きシーン分解モデルであり、シーンごとのテスト時間は、再構成やクロスビュー合成の目的に対する勾配降下を通じて適用される。
我々は、最先端の監視フィードフォワード検出器と代替テスト時間適応法に対して、配電性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-03-21T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。