論文の概要: Robustness of Vision Foundation Models to Common Perturbations
- arxiv url: http://arxiv.org/abs/2604.14973v1
- Date: Thu, 16 Apr 2026 13:07:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.908358
- Title: Robustness of Vision Foundation Models to Common Perturbations
- Title(参考訳): 共通摂動に対するビジョン基礎モデルのロバスト性
- Authors: Hongbin Liu, Zhengyuan Jiang, Cheng Hong, Neil Zhenqiang Gong,
- Abstract要約: 本研究は,基礎モデルの共振に対する堅牢性に関する最初の体系的研究である。
我々は、9つの共通の摂動カテゴリで6つの業界規模の基盤モデル(OpenAI、Meta)を評価した。
共通の摂動は、ダウンストリームアプリケーションのパフォーマンスを低下させ、ロバストネスの値がパフォーマンスへの影響を予測できることを示します。
- 参考スコア(独自算出の注目度): 39.41851510638731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A vision foundation model outputs an embedding vector for an image, which can be affected by common editing operations (e.g., JPEG compression, brightness, contrast adjustments). These common perturbations alter embedding vectors and may impact the performance of downstream tasks using these embeddings. In this work, we present the first systematic study on foundation models' robustness to such perturbations. We propose three robustness metrics and formulate five desired mathematical properties for these metrics, analyzing which properties they satisfy or violate. Using these metrics, we evaluate six industry-scale foundation models (OpenAI, Meta) across nine common perturbation categories, finding them generally non-robust. We also show that common perturbations degrade downstream application performance (e.g., classification accuracy) and that robustness values can predict performance impacts. Finally, we propose a fine-tuning approach to improve robustness without sacrificing utility.
- Abstract(参考訳): ビジョン基礎モデルは、一般的な編集操作(JPEG圧縮、輝度、コントラスト調整など)の影響を受け得る画像の埋め込みベクトルを出力する。
これらの共通の摂動は埋め込みベクトルを変化させ、これらの埋め込みを用いて下流タスクのパフォーマンスに影響を与える可能性がある。
本研究では,このような摂動に対する基礎モデルの堅牢性に関する最初の体系的研究について述べる。
3つのロバスト性指標を提案し、これらの指標に対して5つの所望の数学的特性を定式化し、それらが満足または違反する性質を解析する。
これらの指標を用いて、9つの共通の摂動カテゴリで6つの業界規模の基盤モデル(OpenAI、Meta)を評価し、概して非破壊的であることを発見した。
また、ダウンストリームアプリケーションの性能(例えば、分類精度)が低下し、ロバストネスの値が性能に与える影響を予測することも示している。
最後に,実用性を犠牲にすることなくロバスト性を向上させるための微調整手法を提案する。
関連論文リスト
- Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - Simplicity Prevails: The Emergence of Generalizable AIGI Detection in Visual Foundation Models [15.709482146201283]
現代のビジョン・ファンデーション・モデル(Vision Foundation Models)の凍結した特徴に基づいて訓練された単純な線形分類器は、新しい最先端技術を確立している。
この基準線は標準ベンチマーク上の特別な検出器と一致し、また、ウィジェット内のデータセット上では決定的に優れていることを示す。
我々は、AIの法医学におけるパラダイムシフトを提唱し、静的ベンチマークの過度な適合から、ファンデーションモデルの進化する世界の知識を現実の信頼性に活用することへと移行した。
論文 参考訳(メタデータ) (2026-02-02T07:20:02Z) - Visual Autoregressive Modelling for Monocular Depth Estimation [69.01449528371916]
本稿では,視覚的自己回帰(VAR)に基づく単眼深度推定手法を提案する。
提案手法は,大規模テキスト・画像VARモデルに適応し,スケールワイド・コンディショナル・アップサンプリング機構を導入する。
本研究では,屋内ベンチマークにおける制約付きトレーニング条件下での最先端性能と,屋外データセットに適用した場合の強い性能について報告する。
論文 参考訳(メタデータ) (2025-12-27T17:08:03Z) - RoboView-Bias: Benchmarking Visual Bias in Embodied Agents for Robotic Manipulation [67.38036090822982]
ロボット操作における視覚バイアスの定量化を目的とした,最初のベンチマークであるRoboView-Biasを提案する。
我々は、個々の視覚的要因とその相互作用によって引き起こされるバイアスの堅牢な測定を可能にする2,127のタスクインスタンスを作成します。
本研究は,視覚バイアスの系統的解析が,安全で信頼性の高い汎用的なエンボディエージェントの開発に必須であることを示す。
論文 参考訳(メタデータ) (2025-09-26T13:53:25Z) - Crafting Imperceptible On-Manifold Adversarial Attacks for Tabular Data [38.89245780759371]
本稿では,混合入力変分オートエンコーダ(VAE)を用いた遅延空間摂動フレームワークを提案し,統計的に一貫した逆の例を生成する。
提案手法は,従来の入力空間攻撃と比較して,アウトレーラ率と一貫した性能を著しく低下させることを示す。
論文 参考訳(メタデータ) (2025-07-15T05:34:44Z) - Benchmark Granularity and Model Robustness for Image-Text Retrieval [44.045767657945895]
データセットの粒度とクエリの摂動が検索性能とロバスト性にどのように影響するかを示す。
よりリッチなキャプションは、特にテキスト・ツー・イメージタスクにおいて、検索を継続的に強化することを示す。
本研究は, モデル頑健性の変化とキャプション粒度と感度摂動のデータセット依存的関係に着目した。
論文 参考訳(メタデータ) (2024-07-21T18:08:44Z) - Fair SA: Sensitivity Analysis for Fairness in Face Recognition [1.7149364927872013]
汎用フレームワークの形で頑健性に基づく新しい公正性評価を提案する。
我々は、一般的な顔認識モデルの性能を分析し、画像が摂動状態にある場合、ある種のサブグループが不利であることを実証的に示す。
論文 参考訳(メタデータ) (2022-02-08T01:16:09Z) - On the Robustness of Quality Measures for GANs [136.18799984346248]
本研究は、インセプションスコア(IS)やFr'echet Inception Distance(FID)のような生成モデルの品質測定の堅牢性を評価する。
このような測度は、加算画素摂動によっても操作可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T06:43:09Z) - Clustering Effect of (Linearized) Adversarial Robust Models [60.25668525218051]
本稿では, 敵の強靭性に対する新たな理解を提案し, ドメイン適応や頑健性向上といったタスクに適用する。
提案したクラスタリング戦略の合理性と優越性を実験的に評価した。
論文 参考訳(メタデータ) (2021-11-25T05:51:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。