論文の概要: The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding
- arxiv url: http://arxiv.org/abs/2512.19693v1
- Date: Mon, 22 Dec 2025 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.90065
- Title: The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding
- Title(参考訳): プリズム仮説:統一オートエンコーディングによる意味表現と画素表現の調和
- Authors: Weichen Fan, Haiwen Diao, Quan Wang, Dahua Lin, Ziwei Liu,
- Abstract要約: セマンティックエンコーダは、主に抽象的意味を符号化する低周波成分をキャプチャするが、ピクセルエンコーダは微細な詳細を伝達する高周波情報を保持する。
本稿では,新しい周波数帯域変調器を用いて意味構造と画素の詳細を調和させるモデルであるUnified Autoencoding (UAE)を提案する。
- 参考スコア(独自算出の注目度): 82.53463660564933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep representations across modalities are inherently intertwined. In this paper, we systematically analyze the spectral characteristics of various semantic and pixel encoders. Interestingly, our study uncovers a highly inspiring and rarely explored correspondence between an encoder's feature spectrum and its functional role: semantic encoders primarily capture low-frequency components that encode abstract meaning, whereas pixel encoders additionally retain high-frequency information that conveys fine-grained detail. This heuristic finding offers a unifying perspective that ties encoder behavior to its underlying spectral structure. We define it as the Prism Hypothesis, where each data modality can be viewed as a projection of the natural world onto a shared feature spectrum, just like the prism. Building on this insight, we propose Unified Autoencoding (UAE), a model that harmonizes semantic structure and pixel details via an innovative frequency-band modulator, enabling their seamless coexistence. Extensive experiments on ImageNet and MS-COCO benchmarks validate that our UAE effectively unifies semantic abstraction and pixel-level fidelity into a single latent space with state-of-the-art performance.
- Abstract(参考訳): モダリティにまたがる深い表現は本質的に絡み合っている。
本稿では,様々なセマンティックおよびピクセルエンコーダのスペクトル特性を系統的に解析する。
セマンティックエンコーダは、主に抽象的意味を符号化する低周波成分を捉え、ピクセルエンコーダは、細かな詳細を伝達する高周波情報を保持する。
このヒューリスティックな発見は、エンコーダの振る舞いを基盤となるスペクトル構造に結びつける統一的な視点を提供する。
プリム仮説(Prism hypothesis)と定義し、各データモダリティはプリズムと同様に、自然界を共有特徴スペクトルに投影したものとみなすことができる。
この知見に基づいて,新しい周波数帯域変調器を用いて意味構造と画素の詳細を調和させ,シームレスな共存を可能にするモデルであるUnified Autoencoding (UAE)を提案する。
ImageNetとMS-COCOベンチマークの大規模な実験により、UAEはセマンティックな抽象化とピクセルレベルの忠実さを、最先端のパフォーマンスを持つ単一の潜在空間に効果的に統一することを検証した。
関連論文リスト
- VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2025-11-28T17:26:34Z) - Hyperspectral Adapter for Semantic Segmentation with Vision Foundation Models [18.24287471339871]
ハイパースペクトルイメージング(HSI)は、多数の狭い波長帯にわたる密度のスペクトル測定とともに空間情報をキャプチャする。
本アーキテクチャでは、スペクトル変換器とスペクトル対応空間先行モジュールを組み込んで、豊富な空間スペクトル特徴を抽出する。
我々のアーキテクチャは、HSI入力を直接使用しながら、最先端のセマンティックセマンティックセマンティックセマンティクス性能を実現し、ビジョンベースとハイパースペクトルセマンティクスの両方のセマンティクス法より優れている。
論文 参考訳(メタデータ) (2025-09-24T13:32:07Z) - Conceptualizing Multi-scale Wavelet Attention and Ray-based Encoding for Human-Object Interaction Detection [15.125734989910429]
本稿では,HOI検出に適したウェーブレットアテンションのようなバックボーンとレイベースのエンコーダアーキテクチャを提案する。
我々のウェーブレットバックボーンは、畳み込みフィルタから抽出した低次および高次相互作用から識別的特徴を集約することにより、中間階相互作用を表現する限界に対処する。
我々のデコーダは、クエリの埋め込みを、正確な予測のために強調された関心領域と整合させる。
論文 参考訳(メタデータ) (2025-07-15T04:44:54Z) - CARL: Camera-Agnostic Representation Learning for Spectral Image Analysis [69.02751635551724]
スペクトルイメージングは、医療や都市景観の理解など、様々な領域で有望な応用を提供する。
スペクトルカメラのチャネル次元と捕獲波長のばらつきは、AI駆動方式の開発を妨げる。
本稿では,RGB,マルチスペクトル,ハイパースペクトル画像を用いたカメラ非依存表現学習モデルCARLを紹介する。
論文 参考訳(メタデータ) (2025-04-27T13:06:40Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。