論文の概要: Cross-architecture universal feature coding via distribution alignment
- arxiv url: http://arxiv.org/abs/2506.12737v1
- Date: Sun, 15 Jun 2025 06:14:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.792435
- Title: Cross-architecture universal feature coding via distribution alignment
- Title(参考訳): 分布アライメントによるクロスアーキテクチャユニバーサル特徴符号化
- Authors: Changsheng Gao, Shan Liu, Feng Wu, Weisi Lin,
- Abstract要約: クロスアーキテクチャユニバーサル特徴符号化(CAUFC)という新しい研究課題を導入する。
まず,CNN と Transformer が一貫した2次元トークン形式に特徴付けるフォーマットアライメント手法を設計し,また,トランケーションと正規化によって統計分布を調和させる特徴値アライメント手法を提案する。
本稿では,CAUFCを最初に研究する試みとして,画像分類作業における手法の評価を行い,本手法がアーキテクチャ固有のベースラインに比べて高いレート精度のトレードオフを実現することを示す。
- 参考スコア(独自算出の注目度): 88.73189953617594
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Feature coding has become increasingly important in scenarios where semantic representations rather than raw pixels are transmitted and stored. However, most existing methods are architecture-specific, targeting either CNNs or Transformers. This design limits their applicability in real-world scenarios where features from both architectures coexist. To address this gap, we introduce a new research problem: cross-architecture universal feature coding (CAUFC), which seeks to build a unified codec that can effectively compress features from heterogeneous architectures. To tackle this challenge, we propose a two-step distribution alignment method. First, we design the format alignment method that unifies CNN and Transformer features into a consistent 2D token format. Second, we propose the feature value alignment method that harmonizes statistical distributions via truncation and normalization. As a first attempt to study CAUFC, we evaluate our method on the image classification task. Experimental results demonstrate that our method achieves superior rate-accuracy trade-offs compared to the architecture-specific baseline. This work marks an initial step toward universal feature compression across heterogeneous model architectures.
- Abstract(参考訳): 生のピクセルではなくセマンティックな表現が送信され、保存されるシナリオでは、機能コーディングがますます重要になっている。
しかし、既存のほとんどのメソッドはアーキテクチャ固有のもので、CNNまたはTransformerをターゲットにしている。
この設計は、両方のアーキテクチャの特徴が共存する現実世界のシナリオにおける適用性を制限する。
このギャップに対処するために、異種アーキテクチャから機能を効果的に圧縮できる統一コーデックの構築を目指すクロスアーキテクチャユニバーサル特徴符号化(CAUFC)という新しい研究課題を導入する。
この課題に対処するために,2段階の分布アライメント手法を提案する。
まず、CNNとTransformerの機能を一貫した2Dトークン形式に統一するフォーマットアライメント手法を設計する。
第2に,トランケーションと正規化によって統計分布を調和させる特徴値アライメント手法を提案する。
本稿では,CAUFCを最初に研究する試みとして,画像分類タスクについて評価する。
実験により,本手法はアーキテクチャ固有のベースラインに比べて高いレート精度のトレードオフを実現することが示された。
この研究は、異種モデルアーキテクチャにおける普遍的な特徴圧縮に向けた最初のステップである。
関連論文リスト
- A Refreshed Similarity-based Upsampler for Direct High-Ratio Feature Upsampling [54.05517338122698]
一般的な類似性に基づく機能アップサンプリングパイプラインが提案されている。
本稿では,セマンティック・アウェアとディテール・アウェアの両方の観点から,明示的に制御可能なクエリキー機能アライメントを提案する。
我々は,モーザイクアーティファクトを緩和する上ではシンプルだが有効であるHR特徴に対して,きめ細かな近傍選択戦略を開発する。
論文 参考訳(メタデータ) (2024-07-02T14:12:21Z) - Multi-Level Aggregation and Recursive Alignment Architecture for Efficient Parallel Inference Segmentation Network [18.47001817385548]
セグメンテーションタスク用にカスタマイズされた並列推論ネットワークを提案する。
実時間速度を確保するために浅いバックボーンを使用し、モデル容量の削減と精度の向上のために3つのコアコンポーネントを提案する。
我々のフレームワークは、CityscapesとCamVidデータセットの最先端のリアルタイム手法よりも、速度と精度のバランスが良くなっている。
論文 参考訳(メタデータ) (2024-02-03T22:51:17Z) - Adaptive Spot-Guided Transformer for Consistent Local Feature Matching [64.30749838423922]
局所的特徴マッチングのための適応スポットガイド変換器(ASTR)を提案する。
ASTRは、統一された粗いアーキテクチャにおける局所的な一貫性とスケールのバリエーションをモデル化する。
論文 参考訳(メタデータ) (2023-03-29T12:28:01Z) - Rethinking Reconstruction Autoencoder-Based Out-of-Distribution
Detection [0.0]
リコンストラクションオートエンコーダに基づく手法は、入力再構成誤差を新規性対正規性の計量として用いることでこの問題に対処する。
本稿では, 意味的再構成, データの確実性分解, 正規化L2距離を導入し, 元の手法を大幅に改善する。
提案手法は,追加データや実装の困難さ,時間を要するパイプライン,さらには既知のクラスの分類精度を損なうことなく機能する。
論文 参考訳(メタデータ) (2022-03-04T09:04:55Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。