論文の概要: What and Where to Adapt: Structure-Semantics Co-Tuning for Machine Vision Compression via Synergistic Adapters
- arxiv url: http://arxiv.org/abs/2604.10017v1
- Date: Sat, 11 Apr 2026 04:03:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.793897
- Title: What and Where to Adapt: Structure-Semantics Co-Tuning for Machine Vision Compression via Synergistic Adapters
- Title(参考訳): 機械視覚圧縮のための構造意味論的協調調整の相乗的適応器による適用方法と方法
- Authors: Shaobo Liu, Haobo Xiong, Kai Liu, Yuna Lin,
- Abstract要約: 本稿では,2つの特殊アダプタによる協調を実現する新しいフレームワークであるStructure-Semantics Co-Tuning (S2-CoT)を紹介する。
S2-CoTは、訓練可能なパラメータのごく一部しか持たない4つの多様なベースコーデックに対して、最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 3.5781276092843393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-efficient fine-tuning of pre-trained codecs is a promising direction in image compression for human and machine vision. While most existing works have primarily focused on tuning the feature structure within the encoder-decoder backbones, the adaptation of the statistical semantics within the entropy model has received limited attention despite its function of predicting the probability distribution of latent features. Our analysis reveals that naive adapter insertion into the entropy model can lead to suboptimal outcomes, underscoring that the effectiveness of adapter-based tuning depends critically on the coordination between adapter type and placement across the compression pipeline. Therefore, we introduce Structure-Semantics Co-Tuning (S2-CoT), a novel framework that achieves this coordination via two specialized, synergistic adapters: the Structural Fidelity Adapter (SFA) and the Semantic Context Adapter (SCA). SFA is integrated into the encoder-decoder to preserve high-fidelity representations by dynamically fusing spatial and frequency information; meanwhile, the SCA adapts the entropy model to align with SFA-tuned features by refining the channel context for more efficient statistical coding. Through joint optimization, S2-CoT turns potential performance degradation into synergistic gains, achieving state-of-the-art results across four diverse base codecs with only a small fraction of trainable parameters, closely matching full fine-tuning performance. Code is available at https://github.com/Brock-bit4/S2-CoT.
- Abstract(参考訳): 予め訓練されたコーデックのパラメータ効率の良い微調整は、人間と機械の視覚に対する画像圧縮において有望な方向である。
既存のほとんどの研究は、主にエンコーダ-デコーダバックボーン内の特徴構造をチューニングすることに重点を置いているが、エントロピーモデルにおける統計的意味論の適応は、潜在特徴の確率分布を予測する機能にもかかわらず、限定的な注目を集めている。
解析の結果, 適応型チューニングの有効性は, 適応型と圧縮パイプライン間の配置の整合性に大きく依存することが明らかとなった。
そこで我々は,S2-CoT (Structure-Semantics Co-Tuning) を導入し,この調整を2つの特別な相乗的アダプタ(Structure Fidelity Adapter (SFA) とSemantic Context Adapter (SCA) によって実現した。
SFAはエンコーダデコーダに統合され、空間情報と周波数情報を動的に融合することで高忠実度表現を保存し、一方、SCAは、より効率的な統計的符号化のためにチャネルコンテキストを洗練することにより、SFAに調整された特徴と整合するエントロピーモデルを適用する。
共同最適化により、S2-CoTは潜在的な性能劣化をシナジスティックゲインに変換し、訓練可能なパラメータのごく一部しか持たない4つの異なるベースコーデックの最先端結果を達成する。
コードはhttps://github.com/Brock-bit4/S2-CoT.comで入手できる。
関連論文リスト
- AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization [84.25316984309725]
動的スパース構造とパラメータ効率のよいアダプタ(例えばLoRA)の統合は、大規模言語モデル(LLM)を拡張するための強力な技術である。
計算負荷は最小限に抑えられるが、計算のレイテンシが急上昇し、復号速度が2.5倍以上遅くなる。
AdaFuseはアルゴリズムと基盤となるハードウェアシステムとの緊密な協調設計に基づいて構築されたフレームワークで、効率的な動的アダプタ実行を実現する。
論文 参考訳(メタデータ) (2026-03-12T12:46:42Z) - JEPA as a Neural Tokenizer: Learning Robust Speech Representations with Density Adaptive Attention [47.304088800992474]
本稿では,JEPA(Joint-Embedding Predictive Architecture)とDAAM(Dedentity Adaptive Attention Mechanism)を組み合わせた2段階の自己組織化フレームワークを提案する。
Stage1はJEPAとDAAMを使用して、波形再構成から完全に切り離された潜在空間におけるマスク付き予測を通じてセマンティックオーディオ機能を学ぶ。
Stage2は、これらの表現をFinite Scalar Quantization (FSQ)とMix-radix Packingスキームを用いた効率的なトークン化に利用し、次いでHiFi-GANデコーダを用いた高忠実な波形再構成を行う。
論文 参考訳(メタデータ) (2025-12-08T05:01:51Z) - Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - Efficient Adaptive Transformer: An Empirical Study and Reproducible Framework [0.0]
EATはオープンソースのベンチマークパイプラインを提供し、GLUEタスク間でのデータ処理、タイミング、アブレーションを自動化する。
主なコントリビューションは、スクリプト、CSVロギング、分析ユーティリティを備えた、オープンでエンドツーエンドの再現可能なフレームワークである。
論文 参考訳(メタデータ) (2025-10-14T11:40:48Z) - iConFormer: Dynamic Parameter-Efficient Tuning with Input-Conditioned Adaptation [15.97351561456467]
本稿では,iConFormerと呼ばれる新しいPEFT手法,入出力トランスフォーマーを提案する。
インスタンスレベルの特徴変換を可能にする動的アダプタに,入出力ネットワーク(iCoN)を導入する。
具体的に言うと、iCoNは各機能に対してチャネルワイドな畳み込みカーネルを生成し、それを適応畳み込みプロセスを使って変換し、下流タスクに適したタスク固有できめ細かな詳細を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-09-04T16:06:23Z) - D$^2$ST-Adapter: Disentangled-and-Deformable Spatio-Temporal Adapter for Few-shot Action Recognition [64.153799533257]
D$2$ST-Adapterは、空間的特徴と時間的特徴の非絡み合いの符号化を可能にする内部のデュアルパスアーキテクチャで構成されている。
本手法は,時間的ダイナミクスが行動認識に不可欠である難易度シナリオに特に適している。
論文 参考訳(メタデータ) (2023-12-03T15:40:10Z) - AFAFed -- Protocol analysis [3.016628653955123]
これは、ストリーム指向IoTアプリケーション環境のための新しいFair Federated Adaptive Learningフレームワークである。
我々は収束特性を分析し、AFAFedの実装面に対処する。
論文 参考訳(メタデータ) (2022-06-29T22:12:08Z) - Rate Distortion Characteristic Modeling for Neural Image Compression [59.25700168404325]
エンドツーエンドの最適化機能は、ニューラルイメージ圧縮(NIC)の優れた損失圧縮性能を提供する。
異なるモデルは、R-D空間の異なる点に到達するために訓練される必要がある。
深層ネットワークと統計モデルを用いてNICのR-D挙動を記述するために,本質的な数学的関数の定式化に努めている。
論文 参考訳(メタデータ) (2021-06-24T12:23:05Z) - On the Encoder-Decoder Incompatibility in Variational Text Modeling and
Beyond [82.18770740564642]
変分オートエンコーダ(VAE)は、潜時変数と償却変分推論を結合する。
我々は,データ多様体のパラメータ化が不十分なエンコーダ・デコーダの不整合性を観察する。
同一構造を持つ決定論的オートエンコーダとVAEモデルを結合した結合型VAEを提案する。
論文 参考訳(メタデータ) (2020-04-20T10:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。