論文の概要: Dimensional Coactivation for Representational Consistency in Frozen Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2605.08249v1
- Date: Thu, 07 May 2026 15:32:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.497403
- Title: Dimensional Coactivation for Representational Consistency in Frozen Vision Foundation Models
- Title(参考訳): 凍結視覚基礎モデルにおける表現整合性の次元コアクティベーション
- Authors: Izaldein Al-Zyoud Abdulmotaleb El Saddik,
- Abstract要約: 本研究は,凍結基礎モデルが意味領域をまたいだ1つのサンプルを連続的に表現するかどうかを考察する。
本稿では,このコヒーレンスを測定するための次元別コヒーレンス(DCA)について紹介する。
DCAは安定な1次元座標系に依存し、領域抽出のみに依存しない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frozen vision foundation models do not merely extract features; they organize images through a learned coordinate system. We ask whether that coordinate system remains internally coherent within a single input. This leads to Representational Consistency: the study of whether a frozen foundation model represents one sample coherently across its semantic subregions. We introduce Dimensional Coactivation (DCA), a per-dimension instrument for measuring this coherence. DCA compares semantic regions by asking whether the same feature dimensions coactivate across them. Unlike classical similarity measures, it deliberately avoids centering, L2 normalization, and full Gram coupling. These operations are useful when comparing different models or distributions, but they are mismatched to the intra-sample setting, where the coordinate system is fixed and raw magnitude carries signal. Deepfake detection provides a natural validation task. Synthetic faces may reproduce plausible eyes, noses, and mouths while breaking the representational structure that links those regions in real faces. Using frozen DINOv3 features, DCA exposes this break: an eyes-mouth-nose fingerprint achieves 0.9106 AUC on CelebDF-v2 and 0.9289 on DFD under FF++ c23 cross-dataset transfer. The design is also sharply validated by ablation: reintroducing centering collapses CelebDF-v2 AUC to 0.459, L2 normalization reduces it to 0.862, and cross-dimension coupling reduces it to 0.478. Finally, replacing DINOv3 with FaRL collapses CelebDF-v2 AUC to 0.582. DCA therefore depends on a stable per-dimension coordinate system, not on region extraction alone. These results position DCA as an instrument for measuring intra-sample representational coherence in frozen foundation models, with deepfake detection as the first validation task.
- Abstract(参考訳): 凍結視覚基盤モデルは単に特徴を抽出するだけでなく、学習された座標系を通じて画像を整理する。
我々は、その座標系が単一の入力内で内部的に一貫性を保つかどうかを問う。
これは表現整合性(Representational Consistency): 凍結基礎モデルがその意味的な部分領域をまたいで1つの標本を一貫性を持って表現するかどうかの研究である。
本稿では,このコヒーレンスを測定するための次元別コヒーレンス(DCA)について紹介する。
DCAは、同じ特徴次元がそれらの間でコアクティベートするかどうかを問うことによって意味領域を比較する。
古典的な類似度測度とは異なり、中心化、L2正規化、フルグラム結合を意図的に避ける。
これらの操作は、異なるモデルや分布を比較する際に有用であるが、座標系が固定され、生の等級が信号を運ぶサンプル内設定と不一致である。
ディープフェイク検出は自然な検証タスクを提供する。
合成顔は、実際の顔のこれらの領域を繋ぐ表現構造を破りながら、可視眼、鼻、口を再現することができる。
目と鼻の指紋は、CelebDF-v2で0.9106 AUC、FF++ c23のクロスデータセット転送でDFDで0.9289AUCを達成する。
中心崩壊の再導入 CelebDF-v2 AUC を 0.459 に、L2 の正規化は 0.862 に、クロス次元結合は 0.478 に減少する。
最後に、DINOv3をFaRLに置き換えると、CelebDF-v2 AUCは0.582に崩壊する。
したがって、DCAは領域抽出のみではなく、安定な1次元座標系に依存している。
これらの結果から, DCAを凍結基礎モデルにおけるサンプル内表現コヒーレンス測定の手段として位置づけ, ディープフェイク検出を第1の検証課題とした。
関連論文リスト
- Function-Space Decoupled Diffusion for Forward and Inverse Modeling in Carbon Capture and Storage [65.51149575007149]
本稿では,Fun-DDPSについて述べる。Fun-DDPSは,関数空間拡散モデルと微分可能なニューラル演算子サロゲートを結合した生成フレームワークである。
Fun-DDPSは、ジョイントステートベースラインで観察される高周波アーティファクトから、物理的に一貫した実現をもたらす。
論文 参考訳(メタデータ) (2026-02-12T18:58:12Z) - Latent Sculpting for Zero-Shot Generalization: A Manifold Learning Approach to Out-of-Distribution Anomaly Detection [2.8547732086436306]
教師付きディープラーニングの基本的限界は「一般化崩壊」である
階層型2段階表現学習フレームワークであるLatent Sculptingを提案する。
我々は「浸潤」のシナリオについて88.89%の検知率を報告した。
論文 参考訳(メタデータ) (2025-12-19T11:37:02Z) - Look Before You Fuse: 2D-Guided Cross-Modal Alignment for Robust 3D Detection [7.448164560761331]
既存の手法は、LiDARとカメラの特徴の空間的ずれに悩まされている。
このミスアライメントの根本原因は、キャリブレーションの不正確さとローリングシャッター効果から生じるプロジェクションエラーにある。
本稿では,PGDCからの残留雑音を抑えるために不連続認識幾何融合を導入し,背景境界における鋭い深度遷移を明示的に促進する。
提案手法は,mAPとNDSをそれぞれ71.5%,73.6%としたnuScenes検証データセット上でのSOTA性能を実現する。
論文 参考訳(メタデータ) (2025-07-21T18:12:22Z) - Generative Modeling with Flow-Guided Density Ratio Learning [12.192867460641835]
Flow-Guided Density Ratio Learning (FDRL)は、生成モデルに対するシンプルでスケーラブルなアプローチである。
我々は,FDRLが128時間128ドルの高次元の画像を生成するとともに,既存の勾配流ベースラインを定量的なベンチマークで上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-07T07:55:52Z) - On Robust Cross-View Consistency in Self-Supervised Monocular Depth Estimation [56.97699793236174]
本論文では,2種類の堅牢なクロスビュー整合性について検討する。
深度特徴空間と3次元ボクセル空間の時間的コヒーレンスを自己教師付き単眼深度推定に利用した。
いくつかのアウトドアベンチマークの実験結果から,本手法は最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2022-09-19T03:46:13Z) - Orthogonal Matrix Retrieval with Spatial Consensus for 3D Unknown-View
Tomography [58.60249163402822]
未知視トモグラフィ(UVT)は、未知のランダムな向きで2次元投影から3次元密度マップを再構成する。
提案したOMRはより堅牢で、従来の最先端のOMRアプローチよりも大幅に性能が向上している。
論文 参考訳(メタデータ) (2022-07-06T21:40:59Z) - Robust Representation via Dynamic Feature Aggregation [44.927408735490005]
ディープ畳み込みニューラルネットワーク(CNN)ベースのモデルは、敵の攻撃に対して脆弱である。
本稿では,新しい正規化により埋め込み空間を圧縮する動的特徴集約法を提案する。
CIFAR-10における攻撃法の平均精度は56.91%である。
論文 参考訳(メタデータ) (2022-05-16T06:22:15Z) - The KFIoU Loss for Rotated Object Detection [115.334070064346]
本稿では,SkewIoU損失とトレンドレベルアライメントを両立できる近似的損失を考案する上で,有効な方法の1つとして論じる。
具体的には、対象をガウス分布としてモデル化し、SkewIoUのメカニズムを本質的に模倣するためにカルマンフィルタを採用する。
KFIoUと呼ばれる新たな損失は実装が容易で、正確なSkewIoUよりもうまく動作する。
論文 参考訳(メタデータ) (2022-01-29T10:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。