論文の概要: Prompt-ICM: A Unified Framework towards Image Coding for Machines with
Task-driven Prompts
- arxiv url: http://arxiv.org/abs/2305.02578v1
- Date: Thu, 4 May 2023 06:21:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 16:48:18.061670
- Title: Prompt-ICM: A Unified Framework towards Image Coding for Machines with
Task-driven Prompts
- Title(参考訳): Prompt-ICM:タスク駆動型Promptを持つマシンの画像符号化のための統一フレームワーク
- Authors: Ruoyu Feng, Jinming Liu, Xin Jin, Xiaohan Pan, Heming Sun, Zhibo Chen
- Abstract要約: 機械用画像符号化(ICM)は、人間の知覚ではなく、下流のAI分析をサポートするために画像を圧縮することを目的としている。
近年の大規模事前学習モデルから下流タスクへの移行に触発されて,新しいICMフレームワークであるPrompt-ICMを探索する。
提案手法は,情報セレクタによって予測される重要マップとして実装された圧縮プロンプトと,下流の異なるタスクに応じて圧縮中に異なるコンテンツ重み付けビット割り当てを実現するための2つのコア設計からなる。
- 参考スコア(独自算出の注目度): 27.119835579428816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image coding for machines (ICM) aims to compress images to support downstream
AI analysis instead of human perception. For ICM, developing a unified codec to
reduce information redundancy while empowering the compressed features to
support various vision tasks is very important, which inevitably faces two core
challenges: 1) How should the compression strategy be adjusted based on the
downstream tasks? 2) How to well adapt the compressed features to different
downstream tasks? Inspired by recent advances in transferring large-scale
pre-trained models to downstream tasks via prompting, in this work, we explore
a new ICM framework, termed Prompt-ICM. To address both challenges by carefully
learning task-driven prompts to coordinate well the compression process and
downstream analysis. Specifically, our method is composed of two core designs:
a) compression prompts, which are implemented as importance maps predicted by
an information selector, and used to achieve different content-weighted bit
allocations during compression according to different downstream tasks; b)
task-adaptive prompts, which are instantiated as a few learnable parameters
specifically for tuning compressed features for the specific intelligent task.
Extensive experiments demonstrate that with a single feature codec and a few
extra parameters, our proposed framework could efficiently support different
kinds of intelligent tasks with much higher coding efficiency.
- Abstract(参考訳): 機械用画像符号化(ICM)は、人間の知覚の代わりに下流AI分析をサポートするために画像を圧縮することを目的としている。
icmでは、情報の冗長性を低減し、様々なビジョンタスクをサポートするために圧縮機能を付与する統一コーデックの開発が非常に重要であり、必然的に2つの大きな課題に直面している。
1) ダウンストリームタスクに基づいて圧縮戦略をどのように調整すべきか?
2) 圧縮された機能を下流のタスクに適切に適応させるには?
大規模事前学習型モデルを下流タスクに移行する最近の進歩に触発されて,本研究では,Prompt-ICMと呼ばれる新しいICMフレームワークを探索する。
タスク駆動のプロンプトを慎重に学習し、圧縮プロセスと下流分析をうまく協調させることで、両方の課題に対処する。
具体的には,本手法は2つのコア設計から構成される。
a)圧縮プロンプトは,情報セレクタが予測する重要マップとして実装され,異なる下流タスクに応じて圧縮中に異なるコンテンツ重み付けされたビット割り当てを達成するために使用される。
b) タスク適応プロンプトは、特定の知的タスクのために圧縮された特徴をチューニングするためのいくつかの学習可能なパラメータとしてインスタンス化されている。
広範な実験によって、単一の機能コーデックといくつかの追加パラメータによって、提案フレームワークは、より高いコーディング効率で、異なる種類のインテリジェントタスクを効率的にサポートできることが示されました。
関連論文リスト
- TACO-RL: Task Aware Prompt Compression Optimization with Reinforcement Learning [11.167198972934736]
GPT-4のような大規模言語モデル(LLM)は、最適なパフォーマンスに必要なプロンプトのサイズが急増した。
本稿では,RLに基づくタスク認識プロンプト圧縮手法を提案する。
我々は,RL誘導圧縮法により,最先端圧縮技術よりもタスク性能が8%から260%向上することが実証された。
論文 参考訳(メタデータ) (2024-09-19T18:11:59Z) - Tell Codec What Worth Compressing: Semantically Disentangled Image Coding for Machine with LMMs [47.7670923159071]
我々は,LMM(Large Multimodal Models)の常識を巧みに活用して,「機械のためのインテリジェントコーディング」を実現するための新しい画像圧縮パラダイムを提案する。
textitSemantically textitDisentangled textitCompression'' の textitSDComp' メソッドをダブし、様々な視覚タスクの最先端コーデックと比較する。
論文 参考訳(メタデータ) (2024-08-16T07:23:18Z) - Rate-Distortion-Cognition Controllable Versatile Neural Image Compression [47.72668401825835]
速度歪み認識制御可能な多目的画像圧縮法を提案する。
本手法は, 良好なICM性能とフレキシブルレート・ディストーション・コグニテーション制御を実現する。
論文 参考訳(メタデータ) (2024-07-16T13:17:51Z) - CMC-Bench: Towards a New Paradigm of Visual Signal Compression [85.1839779884282]
本稿では,画像圧縮のための画像間テキスト(I2T)モデルとテキスト間画像(T2I)モデルの協調性能のベンチマークであるCMC-Benchを紹介する。
超低速では、いくつかのI2TモデルとT2Iモデルの組み合わせが、最も先進的な視覚信号プロトコルを超えたことが証明されている。
論文 参考訳(メタデータ) (2024-06-13T17:41:37Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - Revisit Visual Representation in Analytics Taxonomy: A Compression
Perspective [69.99087941471882]
圧縮された視覚表現を用いて複数のマシンビジョン分析タスクをサポートする問題について検討する。
異なるタスク間の本質的な転送性を利用することで、低ビットレートでコンパクトで表現力のある表現を構築できる。
表現にコンパクトさを課すために,コードブックベースのハイパープライヤを提案する。
論文 参考訳(メタデータ) (2021-06-16T01:44:32Z) - Video Coding for Machines: A Paradigm of Collaborative Compression and
Intelligent Analytics [127.65410486227007]
フレーム全体を圧縮、再構成することを目的としたビデオ符号化と、最も重要な情報のみを保存し、送信する特徴圧縮は、スケールの2つの端に立つ。
最近のビデオ圧縮の急激なトレンド、例えばディープラーニングベースのコーディングツールやエンドツーエンドの画像/ビデオコーディング、MPEG-7のコンパクトな特徴記述子標準などの取り組みは、持続的かつ迅速な開発を促進する。
本稿では,新たな領域であるVCM(Video Coding for Machines)の探索を行う。
論文 参考訳(メタデータ) (2020-01-10T17:24:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。