論文の概要: Comp-X: On Defining an Interactive Learned Image Compression Paradigm With Expert-driven LLM Agent
- arxiv url: http://arxiv.org/abs/2508.15243v1
- Date: Thu, 21 Aug 2025 05:09:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.190139
- Title: Comp-X: On Defining an Interactive Learned Image Compression Paradigm With Expert-driven LLM Agent
- Title(参考訳): Comp-X:エキスパート駆動LLMエージェントによる対話型学習画像圧縮パラダイムの定義
- Authors: Yixin Gao, Xin Li, Xiaohan Pan, Runsen Feng, Bingchen Li, Yunpeng Qi, Yiting Lu, Zhengxue Cheng, Zhibo Chen, Jörn Ostermann,
- Abstract要約: Comp-Xは,大規模言語モデル(LLM)エージェントの印象的な推論能力によって強化された,初めてのインテリジェントな画像圧縮パラダイムである。
提案したComp-Xは,効率よくコーディング要求を理解でき,テキスト対話機能を実現することができる。
- 参考スコア(独自算出の注目度): 22.508271684976073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Comp-X, the first intelligently interactive image compression paradigm empowered by the impressive reasoning capability of large language model (LLM) agent. Notably, commonly used image codecs usually suffer from limited coding modes and rely on manual mode selection by engineers, making them unfriendly for unprofessional users. To overcome this, we advance the evolution of image coding paradigm by introducing three key innovations: (i) multi-functional coding framework, which unifies different coding modes of various objective/requirements, including human-machine perception, variable coding, and spatial bit allocation, into one framework. (ii) interactive coding agent, where we propose an augmented in-context learning method with coding expert feedback to teach the LLM agent how to understand the coding request, mode selection, and the use of the coding tools. (iii) IIC-bench, the first dedicated benchmark comprising diverse user requests and the corresponding annotations from coding experts, which is systematically designed for intelligently interactive image compression evaluation. Extensive experimental results demonstrate that our proposed Comp-X can understand the coding requests efficiently and achieve impressive textual interaction capability. Meanwhile, it can maintain comparable compression performance even with a single coding framework, providing a promising avenue for artificial general intelligence (AGI) in image compression.
- Abstract(参考訳): Comp-Xは,大規模言語モデル(LLM)エージェントの印象的な推論能力によって強化された,初めてのインテリジェントな画像圧縮パラダイムである。
特に、一般的に使用される画像コーデックはコーディングモードが限られており、エンジニアによる手動モードの選択に依存しているため、プロでないユーザーにとっては使い勝手が悪い。
これを解決するために,3つの重要なイノベーションを導入することで,画像符号化パラダイムの進化を推し進める。
一 人間の機械知覚、可変符号化、空間ビット割り当てを含む様々な目的/要求の異なる符号化モードを一つのフレームワークに統合する多機能コーディングフレームワーク。
(II) 対話型符号化エージェントでは,LLMエージェントにコーディング要求,モード選択,コーディングツールの使用の理解方法を教えるために,プログラミング専門家のフィードバックを付加したテキスト内学習手法を提案する。
3) IIC-benchは, 多様なユーザ要求とコード専門家のアノテーションからなる最初の専用ベンチマークであり, インテリジェントな画像圧縮評価のために体系的に設計されている。
大規模な実験結果から,提案したComp-Xは効率よく符号化要求を理解でき,テキストインタラクションの優れた実現が期待できることがわかった。
一方、単一のコーディングフレームワークでも同等の圧縮性能を維持でき、画像圧縮において人工知能(AGI)に有望な道を提供する。
関連論文リスト
- METEOR: Multi-Encoder Collaborative Token Pruning for Efficient Vision Language Models [92.37117312251755]
プログレッシブプルーニングフレームワークであるMulti-Encoder collaboraTivE tOken pRuning (METEOR)を提案する。
マルチビジョン符号化では,各エンコーダ内の冗長トークンをランク誘導型協調トークン代入戦略により破棄する。
マルチビジョン融合では、異なるエンコーダの視覚的特徴を組み合わせながら、コラボレーティブプルーニングによるクロスエンコーダ冗長性を低減させる。
論文 参考訳(メタデータ) (2025-07-28T13:50:53Z) - UniMIC: Towards Universal Multi-modality Perceptual Image Compression [21.370591256689885]
汎用多モード画像圧縮フレームワークUniMICを提案する。
UniMICは、複数の画像コーデックに対するRDP最適化を統一することを目的としている。
論文 参考訳(メタデータ) (2024-12-06T10:08:55Z) - Tell Codec What Worth Compressing: Semantically Disentangled Image Coding for Machine with LMMs [47.7670923159071]
我々は,LMM(Large Multimodal Models)の常識を巧みに活用して,「機械のためのインテリジェントコーディング」を実現するための新しい画像圧縮パラダイムを提案する。
textitSemantically textitDisentangled textitCompression'' の textitSDComp' メソッドをダブし、様々な視覚タスクの最先端コーデックと比較する。
論文 参考訳(メタデータ) (2024-08-16T07:23:18Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - Prompt-ICM: A Unified Framework towards Image Coding for Machines with
Task-driven Prompts [27.119835579428816]
機械用画像符号化(ICM)は、人間の知覚ではなく、下流のAI分析をサポートするために画像を圧縮することを目的としている。
近年の大規模事前学習モデルから下流タスクへの移行に触発されて,新しいICMフレームワークであるPrompt-ICMを探索する。
提案手法は,情報セレクタによって予測される重要マップとして実装された圧縮プロンプトと,下流の異なるタスクに応じて圧縮中に異なるコンテンツ重み付けビット割り当てを実現するための2つのコア設計からなる。
論文 参考訳(メタデータ) (2023-05-04T06:21:10Z) - Generalized Decoding for Pixel, Image, and Language [197.85760901840177]
画素レベルのセグメンテーションと言語トークンをシームレスに予測できる一般化デコードモデルであるX-Decoderを提案する。
X-Decoderは、すべてのタイプのイメージセグメンテーションと様々な視覚言語(VL)タスクをサポートする統一された方法を提供する最初の作品である。
論文 参考訳(メタデータ) (2022-12-21T18:58:41Z) - ELIC: Efficient Learned Image Compression with Unevenly Grouped
Space-Channel Contextual Adaptive Coding [9.908820641439368]
本研究では,最先端の速度と圧縮能力を実現するための効率的なモデルであるELICを提案する。
優れたパフォーマンスで、提案モデルは極めて高速なプレビューデコーディングとプログレッシブデコーディングもサポートする。
論文 参考訳(メタデータ) (2022-03-21T11:19:50Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Video Coding for Machines: A Paradigm of Collaborative Compression and
Intelligent Analytics [127.65410486227007]
フレーム全体を圧縮、再構成することを目的としたビデオ符号化と、最も重要な情報のみを保存し、送信する特徴圧縮は、スケールの2つの端に立つ。
最近のビデオ圧縮の急激なトレンド、例えばディープラーニングベースのコーディングツールやエンドツーエンドの画像/ビデオコーディング、MPEG-7のコンパクトな特徴記述子標準などの取り組みは、持続的かつ迅速な開発を促進する。
本稿では,新たな領域であるVCM(Video Coding for Machines)の探索を行う。
論文 参考訳(メタデータ) (2020-01-10T17:24:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。