論文の概要: Optical Context Compression Is Just (Bad) Autoencoding
- arxiv url: http://arxiv.org/abs/2512.03643v1
- Date: Wed, 03 Dec 2025 10:27:27 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:14:26.349457
- Title: Optical Context Compression Is Just (Bad) Autoencoding
- Title(参考訳): 光コンテキスト圧縮は、ただの(バッド)オートエンコーディング
- Authors: Ivan Yee Lee, Cheng Yang, Taylor Berg-Kirkpatrick,
- Abstract要約: DeepSeek-OCRは、レンダリングされたテキストは少数の視覚トークンから高い忠実度で再構成できることを示した。
我々は、視覚ベースの圧縮が圧縮された表現からテキストを復元する際、ユニークな利点をもたらすという2つの仮定を暗黙的に検証し、DeepSeek-OCRの再構成結果は、視覚ベースの圧縮が言語モデリングに有用であることを示すものである。
- 参考スコア(独自算出の注目度): 32.622769616423035
- License:
- Abstract: DeepSeek-OCR demonstrates that rendered text can be reconstructed with high fidelity from a small number of vision tokens. This finding has sparked excitement about vision-based context compression for language models. But the evaluation stops at reconstruction; whether these representations help language modeling remains untested. We test two assumptions implicit in the optical-compression narrative: that vision-based compression provides unique advantages for text reconstruction from compressed representations, and that DeepSeek-OCR's reconstruction results are evidence that vision-based compression will be useful for language modeling. Comparing their vision encoder against simple alternatives--parameter-free mean pooling and a learned hierarchical encoder--we find that these simple approaches match or surpass vision for reconstruction at matched compression ratios, and outperform it for language modeling--where vision-based compression fails to beat truncation. The excitement around optical context compression outpaces the evidence. Code and checkpoints are available at https://github.com/ivnle/bad-autoencoding
- Abstract(参考訳): DeepSeek-OCRは、レンダリングされたテキストは少数の視覚トークンから高い忠実度で再構成できることを示した。
この発見は、言語モデルに対する視覚ベースのコンテキスト圧縮に興奮をもたらした。
しかし、これらの表現が言語モデリングに役立つかどうかはまだ検証されていない。
我々は、視覚ベースの圧縮が圧縮された表現からテキストを復元する際、ユニークな利点をもたらすという2つの仮定を暗黙的に検証し、DeepSeek-OCRの再構成結果は、視覚ベースの圧縮が言語モデリングに有用であることを示すものである。
それらの視覚エンコーダを、パラメータフリー平均プーリングと学習階層エンコーダと比較すると、これらの単純なアプローチは、一致した圧縮比で再構成のビジョンにマッチするか、超え、言語モデリングでは性能が良くない。
光コンテキスト圧縮に関する興奮は、その証拠を圧倒する。
コードとチェックポイントはhttps://github.com/ivnle/bad-autoencodingで入手できる。
関連論文リスト
- Efficient Discriminative Joint Encoders for Large Scale Vision-Language Reranking [8.189266513060621]
マルチモーダル検索はまだCLIPのような埋め込みベースのモデルに頼っている。
共同エンコーダのリランカが標準であるテキスト検索とは異なり、同等の視覚言語リランカはほとんど欠落している。
本稿では,視覚トークンをオフラインでプリコンプリートし,軽量アテンションベースのアダプタで圧縮する,効率的な識別関節であるEDJEを紹介する。
論文 参考訳(メタデータ) (2025-10-08T09:46:09Z) - Embedding Compression Distortion in Video Coding for Machines [67.97469042910855]
現在、ビデオ伝送は人間の視覚システム(HVS)だけでなく、分析のための機械認識にも役立っている。
本稿では,機械知覚関連歪み表現を抽出し,下流モデルに埋め込む圧縮歪埋め込み(CDRE)フレームワークを提案する。
我々のフレームワークは,実行時間,パラメータ数といったオーバーヘッドを最小限に抑えて,既存のコーデックのレートタスク性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-03-27T13:01:53Z) - End-to-End Semantic Preservation in Text-Aware Image Compression Systems [42.76781276416154]
光文字認識(OCR)のためのテキスト固有の特徴を保持するエンドツーエンド圧縮フレームワークを提案する。
実験では、低速度でのテキスト抽出精度が大幅に向上し、圧縮されていない画像ではOCRよりも優れていた。
我々はこの研究を汎用エンコーダに拡張し、極端圧縮下で隠れセマンティクスを保存する能力を探究する。
論文 参考訳(メタデータ) (2025-03-25T09:36:13Z) - Hierarchical Semantic Compression for Consistent Image Semantic Restoration [62.97519327310638]
生成モデルから固有意味空間内で純粋に機能する新しい階層意味圧縮(HSC)フレームワークを提案する。
実験の結果,提案したHSCフレームワークは人間の視力に対する主観的品質と一貫性に関する最先端の性能を実現することが示された。
論文 参考訳(メタデータ) (2025-02-24T03:20:44Z) - Unicorn: Unified Neural Image Compression with One Number Reconstruction [25.79670851851377]
textbfUnified textbfNeural textbfImage textbfCompression with textbfOne textbfNnumber textbfReconstruction)。
イメージをインデックス画像対として概念化し、微妙なニューラルネットワークでペア固有の分布を学習することにより、Unicornは、1つのインデックス番号だけでランダムに生成されたノイズから視覚的に喜ぶイメージを再構成することができる。
論文 参考訳(メタデータ) (2024-12-11T08:59:04Z) - Cross Modal Compression: Towards Human-comprehensible Semantic
Compression [73.89616626853913]
クロスモーダル圧縮は、視覚データのためのセマンティック圧縮フレームワークである。
提案したCMCは,超高圧縮比で再現性の向上が期待できることを示す。
論文 参考訳(メタデータ) (2022-09-06T15:31:11Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。