論文の概要: Test-Time Canonicalization by Foundation Models for Robust Perception
- arxiv url: http://arxiv.org/abs/2507.10375v1
- Date: Mon, 14 Jul 2025 15:14:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:25.263068
- Title: Test-Time Canonicalization by Foundation Models for Robust Perception
- Title(参考訳): ロバスト知覚のための基礎モデルによるテスト時間正準化
- Authors: Utkarsh Singhal, Ryan Feng, Stella X. Yu, Atul Prakash,
- Abstract要約: FOCALは、堅牢な知覚のためのテストタイム、データ駆動フレームワークである。
再トレーニングやアーキテクチャの変更なしに、堅牢性を高める。
実験では,CLIPおよびSAMの難易度変換における堅牢性の向上を実証した。
- 参考スコア(独自算出の注目度): 33.00574202314593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world visual perception requires invariance to diverse transformations, yet current methods rely heavily on specialized architectures or training on predefined augmentations, limiting generalization. We propose FOCAL, a test-time, data-driven framework that achieves robust perception by leveraging internet-scale visual priors from foundation models. By generating and optimizing candidate transformations toward visually typical, "canonical" views, FOCAL enhances robustness without re-training or architectural changes. Our experiments demonstrate improved robustness of CLIP and SAM across challenging transformations, including 2D/3D rotations, illumination shifts (contrast and color), and day-night variations. We also highlight potential applications in active vision. Our approach challenges the assumption that transform-specific training is necessary, instead offering a scalable path to invariance. Our code is available at: https://github.com/sutkarsh/focal.
- Abstract(参考訳): 現実の視覚知覚は多様な変換に相違を必要とするが、現在の手法は特定のアーキテクチャや事前定義された拡張の訓練に大きく依存し、一般化を制限している。
基礎モデルからインターネットスケールの視覚的先行性を活用することにより、堅牢な認識を実現するテストタイムデータ駆動フレームワークであるFOCALを提案する。
視覚的に典型的な"標準的"なビューへの候補変換の生成と最適化によって、FOCALは、再トレーニングやアーキテクチャの変更なしに堅牢性を高める。
実験では,CLIPとSAMの2D/3D回転,照明シフト(コントラストと色),日中の変動など,難易度の変化に対するロバスト性の向上を実証した。
また、アクティブビジョンの潜在的な応用も強調します。
当社のアプローチでは、不変性へのスケーラブルなパスを提供する代わりに、トランスフォーメーション固有のトレーニングが必要であるという仮定に挑戦しています。
私たちのコードは、https://github.com/sutkarsh/focal.comで公開されています。
関連論文リスト
- Zero-Shot Visual Generalization in Robot Manipulation [0.13280779791485384]
現在のアプローチは、しばしば点雲や深さのような不変表現に頼ることで問題を横取りする。
ディアングル型表現学習は、視覚的分布シフトに対して、視覚に基づく強化学習ポリシーを堅牢化できることを最近示した。
シミュレーションおよび実ハードウェア上での視覚摂動に対するゼロショット適応性を示す。
論文 参考訳(メタデータ) (2025-05-16T22:01:46Z) - ViT-VS: On the Applicability of Pretrained Vision Transformer Features for Generalizable Visual Servoing [40.67171259494469]
本稿では,事前学習した視覚変換器を用いて意味的特徴抽出を行う視覚サーボ手法を提案する。
提案手法は、従来の画像に基づく視覚サーボよりも、摂動シナリオの相対的な改善を31.2%も上回っている。
実世界の評価では、エンドエフェクタの位置決め、工業用ボックス操作、見えない物体の把握において堅牢な性能が確認されている。
論文 参考訳(メタデータ) (2025-03-06T15:33:19Z) - Robust Scene Change Detection Using Visual Foundation Models and Cross-Attention Mechanisms [27.882122236282054]
本稿では,視覚基礎モデルDINOv2の頑健な特徴抽出機能を活用したシーン変化検出手法を提案する。
我々は,VL-CMU-CDとPSCDの2つのベンチマークデータセットに対するアプローチと,その視点評価バージョンについて検討した。
実験では,F1スコアにおいて,特に画像ペア間の幾何学的変化を伴うシナリオにおいて,顕著な改善が示された。
論文 参考訳(メタデータ) (2024-09-25T11:55:27Z) - RePo: Resilient Model-Based Reinforcement Learning by Regularizing
Posterior Predictability [25.943330238941602]
本稿では,視覚モデルに基づくRL法を提案する。
我々の訓練目的は、表現が力学と報酬を最大限に予測することを奨励する。
我々の取り組みは、モデルベースのRLを動的で多様なドメインのための実用的で有用なツールにするためのステップです。
論文 参考訳(メタデータ) (2023-08-31T18:43:04Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - A Simple Strategy to Provable Invariance via Orbit Mapping [14.127786615513978]
本稿では,グループ行動に関して,ネットワークアーキテクチャを確実に不変にする方法を提案する。
簡単に言えば、実際のネットワークにデータを送る前に、可能なトランスフォーメーションを“無効化”するつもりです。
論文 参考訳(メタデータ) (2022-09-24T03:40:42Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - B-cos Networks: Alignment is All We Need for Interpretability [136.27303006772294]
本稿では,深層ニューラルネットワーク(DNN)の学習における重み付けの促進による解釈可能性の向上に向けた新たな方向性を提案する。
B-コス変換は、完全なモデル計算を忠実に要約する単一の線形変換を誘導する。
VGGs、ResNets、InceptionNets、DenseNetsといった一般的なモデルに簡単に統合できることを示します。
論文 参考訳(メタデータ) (2022-05-20T16:03:29Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - A Flexible Framework for Designing Trainable Priors with Adaptive
Smoothing and Game Encoding [57.1077544780653]
我々は、前方通過を非滑らかな凸最適化問題として解釈できるニューラルネットワーク層の設計とトレーニングのための一般的なフレームワークを紹介する。
グラフのノードに代表されるローカルエージェントによって解決され、正規化関数を介して相互作用する凸ゲームに焦点を当てる。
このアプローチは、訓練可能なエンドツーエンドのディープモデル内で、古典的な画像の事前使用を可能にするため、画像の問題を解決するために魅力的である。
論文 参考訳(メタデータ) (2020-06-26T08:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。