論文の概要: Towards 1000-fold Electron Microscopy Image Compression for Connectomics via VQ-VAE with Transformer Prior
- arxiv url: http://arxiv.org/abs/2511.00231v1
- Date: Fri, 31 Oct 2025 20:05:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.683489
- Title: Towards 1000-fold Electron Microscopy Image Compression for Connectomics via VQ-VAE with Transformer Prior
- Title(参考訳): 変圧器前駆体を用いたVQ-VAEによるコネトミクスの1000倍電子顕微鏡画像圧縮に向けて
- Authors: Fuming Yang, Yicong Li, Hanspeter Pfister, Jeff W. Lichtman, Yaron Meirovitch,
- Abstract要約: ベクトル量子化された変分オートエンコーダ(VQ-VAE)圧縮フレームワークを提案する。
また、必要であれば1024x圧縮ラテントから選択的な高分解能再構成を行うROI駆動ワークフローも導入する。
- 参考スコア(独自算出の注目度): 25.60917236390337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Petascale electron microscopy (EM) datasets push storage, transfer, and downstream analysis toward their current limits. We present a vector-quantized variational autoencoder-based (VQ-VAE) compression framework for EM that spans 16x to 1024x and enables pay-as-you-decode usage: top-only decoding for extreme compression, with an optional Transformer prior that predicts bottom tokens (without changing the compression ratio) to restore texture via feature-wise linear modulation (FiLM) and concatenation; we further introduce an ROI-driven workflow that performs selective high-resolution reconstruction from 1024x-compressed latents only where needed.
- Abstract(参考訳): ペタスケール電子顕微鏡(EM)データセットは、ストレージ、転送、下流分析を現在の限界に向けてプッシュする。
16xから1024xにまたがるEMのためのベクトル量子化可変オートエンコーダ(VQ-VAE)圧縮フレームワークを提案する: 極端圧縮のための最上位のみのデコードが可能で、ボトムトークン(圧縮率を変更することなく)を予測し、特徴量線形変調(FiLM)と結合によってテクスチャを復元するオプションのトランスフォーマーにより、必要に応じて1024x圧縮されたラテントを選択的に高解像度に再構築するROI駆動ワークフローを導入する。
関連論文リスト
- A 1Mb mixed-precision quantized encoder for image classification and patch-based compression [2.7036595757881323]
ASICニューラルネットワークアクセラレータは、異なるレベルの複数のタスクに適用可能であることを示す。
鍵となるコンポーネントは、適切な重み付けとアクティベーション量子化を利用する再構成可能、混合精度(3b/2b/1b)エンコーダである。
また,この量子化エンコーダを用いて画像パッチ・バイ・パッチを圧縮し,再構成を遠隔で行うことができることを示す。
論文 参考訳(メタデータ) (2025-01-09T09:25:22Z) - Variable-size Symmetry-based Graph Fourier Transforms for image compression [65.7352685872625]
可変サイズのグラフフーリエ変換を符号化フレームワークに導入する。
提案アルゴリズムは,ノード間の特定の対称接続を追加することにより,グリッド上の対称グラフを生成する。
実験により、SBGFTは、明示的な多重変換選択に統合された一次変換よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-11-24T13:00:44Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Unifying Generation and Compression: Ultra-low bitrate Image Coding Via
Multi-stage Transformer [35.500720262253054]
本稿では,新しい画像生成圧縮(UIGC)パラダイムを導入し,生成と圧縮のプロセスを統合する。
UIGCフレームワークの重要な特徴は、トークン化にベクトル量子化(VQ)イメージモデルを採用することである。
実験では、既存のコーデックよりも知覚品質と人間の知覚において、提案されたUIGCフレームワークが優れていることを示した。
論文 参考訳(メタデータ) (2024-03-06T14:27:02Z) - Progressive Learning with Visual Prompt Tuning for Variable-Rate Image
Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。
視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。
提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文 参考訳(メタデータ) (2023-11-23T08:29:32Z) - AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。
提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。
我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文 参考訳(メタデータ) (2023-07-12T11:32:02Z) - Towards End-to-End Image Compression and Analysis with Transformers [99.50111380056043]
本稿では,クラウドベースの画像分類アプリケーションを対象として,トランスフォーマーを用いたエンドツーエンドの画像圧縮解析モデルを提案する。
我々は、圧縮された特徴から画像分類を行うためにビジョントランスフォーマー(ViT)モデルを再設計し、トランスフォーマーからの長期情報を用いて画像圧縮を容易にすることを目指している。
画像圧縮と分類作業の両方において,提案モデルの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2021-12-17T03:28:14Z) - Transformer-based Image Compression [18.976159633970177]
Transformer-based Image Compression (TIC) アプローチは、標準変分オートエンコーダ(VAE)アーキテクチャをメインおよびハイパーエンコーダデコーダのペアで再利用する。
TICは、Deep Convolutional Neural Network(CNN)ベースの学習画像符号化(lic)メソッドや、最近承認されたVersatile Video Coding(VVC)標準のハンドクラフトルールベースの内部プロファイルなど、最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-11-12T13:13:20Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。