論文の概要: Embodied Image Compression
- arxiv url: http://arxiv.org/abs/2512.11612v1
- Date: Fri, 12 Dec 2025 14:49:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.807864
- Title: Embodied Image Compression
- Title(参考訳): 身体的画像圧縮
- Authors: Chunyi Li, Rui Qing, Jianbo Zhang, Yuan Tian, Xiangyang Zhu, Zicheng Zhang, Xiaohong Liu, Weisi Lin, Guangtao Zhai,
- Abstract要約: 本稿では,身体的画像圧縮の科学的問題として初めて紹介する。
クローズドループ設定において,超低条件下での系統評価を容易にするため,標準化されたベンチマークEmbodiedCompを構築した。
既存のビジョン・ランゲージ・アクションモデルでは、エンボディード閾値以下で圧縮された場合、単純な操作タスクさえ確実に実行できないことを示す。
- 参考スコア(独自算出の注目度): 105.9462341161654
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image Compression for Machines (ICM) has emerged as a pivotal research direction in the field of visual data compression. However, with the rapid evolution of machine intelligence, the target of compression has shifted from task-specific virtual models to Embodied agents operating in real-world environments. To address the communication constraints of Embodied AI in multi-agent systems and ensure real-time task execution, this paper introduces, for the first time, the scientific problem of Embodied Image Compression. We establish a standardized benchmark, EmbodiedComp, to facilitate systematic evaluation under ultra-low bitrate conditions in a closed-loop setting. Through extensive empirical studies in both simulated and real-world settings, we demonstrate that existing Vision-Language-Action models (VLAs) fail to reliably perform even simple manipulation tasks when compressed below the Embodied bitrate threshold. We anticipate that EmbodiedComp will catalyze the development of domain-specific compression tailored for Embodied agents , thereby accelerating the Embodied AI deployment in the Real-world.
- Abstract(参考訳): Image Compression for Machines (ICM) は、視覚データ圧縮の分野で重要な研究方向として登場した。
しかし、マシンインテリジェンスの急速な進化に伴い、圧縮の対象はタスク固有の仮想モデルから、実環境で動作するEmbodiedエージェントへとシフトした。
本稿では,マルチエージェントシステムにおけるEmbodied AIの通信制約に対処し,リアルタイムタスク実行を確保するために,Embodied Image Compressionの科学的課題を初めて紹介する。
クローズドループ設定において,超低ビットレート条件下での系統評価を容易にするため,標準化されたベンチマークEmbodiedCompを構築した。
シミュレーションと実世界の両方の環境での広範な実証研究を通じて、既存のビジョン・ランゲージ・アクション・モデル(VLA)が、エボダイドビットレート閾値以下で圧縮された場合、簡単な操作タスクを確実に実行できないことを示した。
我々は、EmbodiedCompが、Embodiedエージェントに適したドメイン固有の圧縮の開発を触媒し、現実世界におけるEmbodied AIの展開を加速することを期待している。
関連論文リスト
- Compressor-VLA: Instruction-Guided Visual Token Compression for Efficient Robotic Manipulation [8.316354570715491]
VLA(Vision-Language-Action)モデルは、Embodied AIにおいて強力なパラダイムとして登場した。
本稿では,視覚情報の効率的なタスク指向圧縮を目的とした,ハイブリッドな命令条件付きトークン圧縮フレームワークを提案する。
提案手法は,FLOPを59%,視覚トークン数を3倍以上削減しつつ,LIBEROベンチマークの競争的成功率を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-24T10:06:41Z) - Hierarchical Semantic Compression for Consistent Image Semantic Restoration [62.97519327310638]
生成モデルから固有意味空間内で純粋に機能する新しい階層意味圧縮(HSC)フレームワークを提案する。
実験の結果,提案したHSCフレームワークは人間の視力に対する主観的品質と一貫性に関する最先端の性能を実現することが示された。
論文 参考訳(メタデータ) (2025-02-24T03:20:44Z) - Once-for-All: Controllable Generative Image Compression with Dynamic Granularity Adaptation [52.82508784748278]
本稿では,制御生成画像圧縮フレームワークである制御-GICを提案する。
制御-GICは、高忠実度と一般性圧縮を確保しつつ、広帯域での微粒化適応を可能にする。
実験により,制御-GICは高い柔軟かつ制御可能な適応を可能にし,その結果が最近の最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-06-02T14:22:09Z) - Unifying Generation and Compression: Ultra-low bitrate Image Coding Via
Multi-stage Transformer [35.500720262253054]
本稿では,新しい画像生成圧縮(UIGC)パラダイムを導入し,生成と圧縮のプロセスを統合する。
UIGCフレームワークの重要な特徴は、トークン化にベクトル量子化(VQ)イメージモデルを採用することである。
実験では、既存のコーデックよりも知覚品質と人間の知覚において、提案されたUIGCフレームワークが優れていることを示した。
論文 参考訳(メタデータ) (2024-03-06T14:27:02Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - Video Coding for Machines: A Paradigm of Collaborative Compression and
Intelligent Analytics [127.65410486227007]
フレーム全体を圧縮、再構成することを目的としたビデオ符号化と、最も重要な情報のみを保存し、送信する特徴圧縮は、スケールの2つの端に立つ。
最近のビデオ圧縮の急激なトレンド、例えばディープラーニングベースのコーディングツールやエンドツーエンドの画像/ビデオコーディング、MPEG-7のコンパクトな特徴記述子標準などの取り組みは、持続的かつ迅速な開発を促進する。
本稿では,新たな領域であるVCM(Video Coding for Machines)の探索を行う。
論文 参考訳(メタデータ) (2020-01-10T17:24:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。