論文の概要: Image Coding for Machines with Omnipotent Feature Learning
- arxiv url: http://arxiv.org/abs/2207.01932v1
- Date: Tue, 5 Jul 2022 10:13:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 14:55:16.643051
- Title: Image Coding for Machines with Omnipotent Feature Learning
- Title(参考訳): 全能特徴学習マシンのための画像符号化
- Authors: Ruoyu Feng, Xin Jin, Zongyu Guo, Runsen Feng, Yixin Gao, Tianyu He,
Zhizheng Zhang, Simeng Sun, Zhibo Chen
- Abstract要約: Image Coding for Machines (ICM)は、人間の知覚を満たすのではなく、AIタスク分析のための画像を圧縮することを目的としている。
我々は圧縮も考慮しながら普遍的な特徴を学習し,IMMフレームワークを開発する。
我々は、全能的な機能やそれに対応するフレームワークをOmni-ICMと命名する。
- 参考スコア(独自算出の注目度): 45.36372374739911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image Coding for Machines (ICM) aims to compress images for AI tasks analysis
rather than meeting human perception. Learning a kind of feature that is both
general (for AI tasks) and compact (for compression) is pivotal for its
success. In this paper, we attempt to develop an ICM framework by learning
universal features while also considering compression. We name such features as
omnipotent features and the corresponding framework as Omni-ICM. Considering
self-supervised learning (SSL) improves feature generalization, we integrate it
with the compression task into the Omni-ICM framework to learn omnipotent
features. However, it is non-trivial to coordinate semantics modeling in SSL
and redundancy removing in compression, so we design a novel information
filtering (IF) module between them by co-optimization of instance
distinguishment and entropy minimization to adaptively drop information that is
weakly related to AI tasks (e.g., some texture redundancy). Different from
previous task-specific solutions, Omni-ICM could directly support AI tasks
analysis based on the learned omnipotent features without joint training or
extra transformation. Albeit simple and intuitive, Omni-ICM significantly
outperforms existing traditional and learning-based codecs on multiple
fundamental vision tasks.
- Abstract(参考訳): Image Coding for Machines (ICM)は、人間の知覚を満たすのではなく、AIタスク分析のための画像を圧縮することを目的としている。
一般的な(AIタスクのための)機能とコンパクトな(圧縮のための)機能を学ぶことが、その成功の鍵となる。
本稿では,圧縮を考慮しながら普遍的な特徴を学習し,icmフレームワークの開発を試みる。
我々は、全能的な機能やそれに対応するフレームワークをOmni-ICMと呼ぶ。
自己教師付き学習(SSL)が機能一般化を改善することを考慮し、Omni-ICMフレームワークに圧縮タスクと統合して全能的特徴を学習する。
しかし、SSLにおけるセマンティクスモデリングと圧縮における冗長性除去を協調することは容易ではないため、インスタンスの区別とエントロピーの最小化を併用して、新しい情報フィルタリング(IF)モジュールを設計し、AIタスク(テクスチャ冗長性など)に弱い関係を持つ情報を適応的にドロップする。
これまでのタスク固有のソリューションとは異なり、omni-icmは共同トレーニングや余分なトランスフォーメーションなしで学習された全能機能に基づいたaiタスク分析を直接サポートすることができる。
シンプルで直感的なOmni-ICMは、複数の基本的なビジョンタスクにおいて、既存の伝統および学習ベースのコーデックよりも大幅に優れています。
関連論文リスト
- Tell Codec What Worth Compressing: Semantically Disentangled Image Coding for Machine with LMMs [47.7670923159071]
我々は,LMM(Large Multimodal Models)の常識を巧みに活用して,「機械のためのインテリジェントコーディング」を実現するための新しい画像圧縮パラダイムを提案する。
textitSemantically textitDisentangled textitCompression'' の textitSDComp' メソッドをダブし、様々な視覚タスクの最先端コーデックと比較する。
論文 参考訳(メタデータ) (2024-08-16T07:23:18Z) - ComNeck: Bridging Compressed Image Latents and Multimodal LLMs via Universal Transform-Neck [45.83457913639876]
本稿では,マルチモーダル大言語モデル(MLLM)を応用した下流視覚タスクのニーズに適合する圧縮画像潜在者を適応させる最初の研究について述べる。
本稿では,MLLMに基づく視覚タスクに対して,軽量なトランスフォーメーションネックとサロゲート損失を用いた圧縮画像ラテントを適応させる新しいフレームワークを提案する。
我々のフレームワークには,トランスフォーメーションネックのトレーニングから下流MLLMを除いた印象的な機能と,ニューラルイメージも備えています。
論文 参考訳(メタデータ) (2024-07-29T02:32:44Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Prompt-ICM: A Unified Framework towards Image Coding for Machines with
Task-driven Prompts [27.119835579428816]
機械用画像符号化(ICM)は、人間の知覚ではなく、下流のAI分析をサポートするために画像を圧縮することを目的としている。
近年の大規模事前学習モデルから下流タスクへの移行に触発されて,新しいICMフレームワークであるPrompt-ICMを探索する。
提案手法は,情報セレクタによって予測される重要マップとして実装された圧縮プロンプトと,下流の異なるタスクに応じて圧縮中に異なるコンテンツ重み付けビット割り当てを実現するための2つのコア設計からなる。
論文 参考訳(メタデータ) (2023-05-04T06:21:10Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。