論文の概要: Processing and acquisition traces in visual encoders: What does CLIP know about your camera?
- arxiv url: http://arxiv.org/abs/2508.10637v1
- Date: Thu, 14 Aug 2025 13:34:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.332344
- Title: Processing and acquisition traces in visual encoders: What does CLIP know about your camera?
- Title(参考訳): ビジュアルエンコーダの処理と取得トレース: CLIPはあなたのカメラについて何を知っているのか?
- Authors: Ryan Ramos, Vladan Stojnić, Giorgos Kordopatis-Zilos, Yuta Nakashima, Giorgos Tolias, Noa Garcia,
- Abstract要約: これまでの研究は、画像変換と腐敗に対するビジュアルエンコーダの堅牢性を分析してきた。
画像取得プロセスと変換のパラメータを分析して、人間の目には微妙な、あるいは知覚できない、異なる視点を採る。
- 参考スコア(独自算出の注目度): 28.34664538014526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior work has analyzed the robustness of visual encoders to image transformations and corruptions, particularly in cases where such alterations are not seen during training. When this occurs, they introduce a form of distribution shift at test time, often leading to performance degradation. The primary focus has been on severe corruptions that, when applied aggressively, distort useful signals necessary for accurate semantic predictions. We take a different perspective by analyzing parameters of the image acquisition process and transformations that may be subtle or even imperceptible to the human eye. We find that such parameters are systematically encoded in the learned visual representations and can be easily recovered. More strikingly, their presence can have a profound impact, either positively or negatively, on semantic predictions. This effect depends on whether there is a strong correlation or anti-correlation between semantic labels and these acquisition-based or processing-based labels. Our code and data are available at: https://github.com/ryan-caesar-ramos/visual-encoder-traces
- Abstract(参考訳): これまでの研究は、画像変換や腐敗に対する視覚エンコーダの堅牢性を分析してきた。
これが起こると、彼らはテスト時に分散シフトの形式を導入し、しばしばパフォーマンスを低下させます。
主な焦点は深刻な腐敗であり、攻撃的に適用されると、正確な意味予測に必要な有用な信号を歪めてしまう。
画像取得プロセスと変換のパラメータを分析して、人間の目には微妙な、あるいは知覚できない、異なる視点を採る。
これらのパラメータは学習した視覚表現に体系的に符号化されており、容易に復元できる。
さらに印象的なことに、それらの存在は、肯定的にも否定的にも、意味的な予測に重大な影響を与える可能性がある。
この効果は、セマンティックラベルとこれらの取得ベースまたは処理ベースラベルの間に強い相関関係または反相関関係があるかどうかに依存する。
私たちのコードとデータは、https://github.com/ryan-caesar-ramos/visual-encoder-tracesで利用可能です。
関連論文リスト
- From Images to Perception: Emergence of Perceptual Properties by Reconstructing Images [1.77513002450736]
網膜-V1大脳皮質のいくつかの既知の事実に対応するバイオインスパイアされたアーキテクチャであるPerceptNetは、画像再構成に関連するさまざまなタスクにエンドツーエンドで最適化されている。
以上の結果から,エンコーダの段階は画像歪みに対する人間の知覚的判断と一貫した相関を示すことがわかった。
論文 参考訳(メタデータ) (2025-08-14T08:37:30Z) - Visual Context-Aware Person Fall Detection [52.49277799455569]
画像中の個人とオブジェクトを半自動分離するセグメンテーションパイプラインを提案する。
ベッド、椅子、車椅子などの背景オブジェクトは、転倒検知システムに挑戦し、誤ったポジティブアラームを引き起こす。
トレーニング中のオブジェクト固有のコンテキスト変換が、この課題を効果的に軽減することを示す。
論文 参考訳(メタデータ) (2024-04-11T19:06:36Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision
Transformer for Face Forgery Detection [52.91782218300844]
そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。
自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
論文 参考訳(メタデータ) (2022-10-23T15:24:47Z) - How do Variational Autoencoders Learn? Insights from Representational
Similarity [2.969705152497174]
本研究では,変分オートエンコーダ(VAE)の内部挙動を表現的類似性手法を用いて検討する。
CKAとProcrustesの類似性を用いて,エンコーダの表現はデコーダよりもずっと前から学習されていることがわかった。
論文 参考訳(メタデータ) (2022-05-17T14:31:57Z) - Causal Transportability for Visual Recognition [70.13627281087325]
画像とラベルの関連性は、設定間では転送できないため、標準分類器がフェールすることを示す。
次に、すべての共起源を摂食する因果効果が、ドメイン間で不変であることを示す。
これにより、画像分類における因果効果を推定するアルゴリズムを開発する動機付けとなる。
論文 参考訳(メタデータ) (2022-04-26T15:02:11Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - Dissecting Image Crops [22.482090207522358]
収穫の基本的な操作は、ほぼ全てのコンピュータビジョンシステムに根ざしている。
本稿では,本操作で導入された微妙な痕跡について考察する。
本研究では,これらの痕跡の検出方法と,収穫が画像分布に与える影響について検討する。
論文 参考訳(メタデータ) (2020-11-24T01:33:47Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z) - Improving Image Autoencoder Embeddings with Perceptual Loss [0.1529342790344802]
本研究はエンコーダの埋め込みの観点から知覚的損失を考察する。
オートエンコーダは、知覚的損失を使用して、3つの異なるコンピュータビジョンデータセットからイメージを埋め込むように訓練されている。
その結果、小型の特徴の物体位置決め作業において、知覚的損失は第10因子による結果を改善することができることがわかった。
論文 参考訳(メタデータ) (2020-01-10T13:48:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。