論文の概要: Not all Views are Created Equal: Analyzing Viewpoint Instabilities in Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2412.19920v1
- Date: Fri, 27 Dec 2024 20:50:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:06:43.287581
- Title: Not all Views are Created Equal: Analyzing Viewpoint Instabilities in Vision Foundation Models
- Title(参考訳): すべてのビューが平等に創造されるわけではない:ビジョンファウンデーションモデルにおける視点不安定の分析
- Authors: Mateusz Michalkiewicz, Sheena Bai, Mahsa Baktashmotlagh, Varun Jampani, Guha Balakrishnan,
- Abstract要約: 我々は、視角の微妙な変化に起因する重要な特徴変化として不安定性を定義する。
視点変化に対する応答に着目し,9つの基礎モデルについて検討する。
本手法は,アウト・オブ・ディストリビューション,偶発的,安定的な視点の認識と分類を可能にする。
- 参考スコア(独自算出の注目度): 37.31485387934833
- License:
- Abstract: In this paper, we analyze the viewpoint stability of foundational models - specifically, their sensitivity to changes in viewpoint- and define instability as significant feature variations resulting from minor changes in viewing angle, leading to generalization gaps in 3D reasoning tasks. We investigate nine foundational models, focusing on their responses to viewpoint changes, including the often-overlooked accidental viewpoints where specific camera orientations obscure an object's true 3D structure. Our methodology enables recognizing and classifying out-of-distribution (OOD), accidental, and stable viewpoints using feature representations alone, without accessing the actual images. Our findings indicate that while foundation models consistently encode accidental viewpoints, they vary in their interpretation of OOD viewpoints due to inherent biases, at times leading to object misclassifications based on geometric resemblance. Through quantitative and qualitative evaluations on three downstream tasks - classification, VQA, and 3D reconstruction - we illustrate the impact of viewpoint instability and underscore the importance of feature robustness across diverse viewing conditions.
- Abstract(参考訳): 本稿では,基本モデルの視点安定性(特に視点の変化に対する感度)を解析し,視角の微妙な変化から生じる重要な特徴変化として不安定性を定義することにより,3次元推論タスクにおける一般化のギャップを生じさせる。
対象物の真の3次元構造を隠蔽する特定のカメラ配向を、しばしば見過ごされる偶発的な視点を含む、視点変化に対する応答に着目して、9つの基礎モデルについて検討する。
提案手法は,実際の画像にアクセスすることなく,特徴表現のみを用いて,アウト・オブ・ディストリビューション(OOD),偶発的,安定的な視点の認識と分類を可能にする。
本研究の結果から, 基礎モデルは偶発的視点を一貫してエンコードするが, 固有バイアスによるOOD視点の解釈に違いがあり, 幾何的類似性に基づく物体の誤分類につながることが示唆された。
3つの下流課題(分類・VQA・3次元再構成)の定量的・質的評価を通じて、視点不安定性の影響を明らかにし、多様な視認条件における特徴の堅牢性の重要性を浮き彫りにする。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Robust Scene Change Detection Using Visual Foundation Models and Cross-Attention Mechanisms [27.882122236282054]
本稿では,視覚基礎モデルDINOv2の頑健な特徴抽出機能を活用したシーン変化検出手法を提案する。
我々は,VL-CMU-CDとPSCDの2つのベンチマークデータセットに対するアプローチと,その視点評価バージョンについて検討した。
実験では,F1スコアにおいて,特に画像ペア間の幾何学的変化を伴うシナリオにおいて,顕著な改善が示された。
論文 参考訳(メタデータ) (2024-09-25T11:55:27Z) - Beyond Viewpoint: Robust 3D Object Recognition under Arbitrary Views through Joint Multi-Part Representation [22.8031613567025]
Part-Aware Network (PANet) は、航空機の翼や尾などの3Dオブジェクトの異なる部分のローカライズと理解を目的としている。
提案手法は,任意のビュー下での3次元オブジェクト認識処理において,既存のビューベースアグリゲーションベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-07-04T11:16:47Z) - Freeview Sketching: View-Aware Fine-Grained Sketch-Based Image Retrieval [85.73149096516543]
微細スケッチベース画像検索(FG-SBIR)におけるスケッチ作成時の視点選択について検討する。
パイロットスタディでは、クエリスケッチがターゲットインスタンスと異なる場合、システムの苦労を強調している。
これを解決するために、ビューに依存しないタスクとビュー固有のタスクの両方をシームレスに収容するビューアウェアシステムを提案する。
論文 参考訳(メタデータ) (2024-07-01T21:20:44Z) - 3D-Aware Hypothesis & Verification for Generalizable Relative Object
Pose Estimation [69.73691477825079]
一般化可能なオブジェクトポーズ推定の問題に対処する新しい仮説検証フレームワークを提案する。
信頼性を計測するために,2つの入力画像から学習した3次元オブジェクト表現に3次元変換を明示的に適用する3D認識検証を導入する。
論文 参考訳(メタデータ) (2023-10-05T13:34:07Z) - Towards Viewpoint-Invariant Visual Recognition via Adversarial Training [28.424131496622497]
画像分類器の視点ロバスト性を改善するために,ビューポイント不変適応訓練(VIAT)を提案する。
VIATは最小限の最適化問題として定式化され、内部認識は多様な敵の視点を特徴付ける。
一般化性能をさらに向上するため、分散共有戦略を導入する。
論文 参考訳(メタデータ) (2023-07-16T07:55:42Z) - ViewFool: Evaluating the Robustness of Visual Recognition to Adversarial
Viewpoints [42.64942578228025]
本研究では,視覚認識モデルにミスリードする敵対的視点を見つけるために,ViewFoolという新しい手法を提案する。
現実世界の物体をニューラル放射場(NeRF)として符号化することにより、ViewFoolは多様な敵の視点の分布を特徴付ける。
論文 参考訳(メタデータ) (2022-10-08T03:06:49Z) - Appearance Consensus Driven Self-Supervised Human Mesh Recovery [67.20942777949793]
単眼画像から人間のポーズや形状を推定する自己教師付きメッシュ回復フレームワークを提案する。
標準モデルに基づく3次元ポーズ推定ベンチマークの最先端結果を得る。
その結果、色付きメッシュ予測により、ポーズや形状推定以外にも、さまざまな外観関連タスクにフレームワークの使用が開放される。
論文 参考訳(メタデータ) (2020-08-04T05:40:39Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。