論文の概要: Towards Modality Transferable Visual Information Representation with
Optimal Model Compression
- arxiv url: http://arxiv.org/abs/2008.05642v1
- Date: Thu, 13 Aug 2020 01:52:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 22:55:13.260282
- Title: Towards Modality Transferable Visual Information Representation with
Optimal Model Compression
- Title(参考訳): 最適モデル圧縮によるモダリティ伝達可能な視覚情報表現に向けて
- Authors: Rongqun Lin, Linwei Zhu, Shiqi Wang and Sam Kwong
- Abstract要約: 本稿では,伝達可能なモダリティの原理を活かした視覚信号表現手法を提案する。
提案するフレームワークは最先端のビデオコーディング標準に実装されている。
- 参考スコア(独自算出の注目度): 67.89885998586995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compactly representing the visual signals is of fundamental importance in
various image/video-centered applications. Although numerous approaches were
developed for improving the image and video coding performance by removing the
redundancies within visual signals, much less work has been dedicated to the
transformation of the visual signals to another well-established modality for
better representation capability. In this paper, we propose a new scheme for
visual signal representation that leverages the philosophy of transferable
modality. In particular, the deep learning model, which characterizes and
absorbs the statistics of the input scene with online training, could be
efficiently represented in the sense of rate-utility optimization to serve as
the enhancement layer in the bitstream. As such, the overall performance can be
further guaranteed by optimizing the new modality incorporated. The proposed
framework is implemented on the state-of-the-art video coding standard (i.e.,
versatile video coding), and significantly better representation capability has
been observed based on extensive evaluations.
- Abstract(参考訳): 視覚信号のコンパクトな表現は、様々な画像/ビデオ中心のアプリケーションにおいて重要である。
視覚信号の冗長性を除去し、画像や映像の符号化性能を向上させるために多くの手法が開発されたが、視覚信号の別の確立されたモダリティへの変換により、表現能力が向上した。
本稿では,転送可能なモダリティの哲学を活かした視覚信号表現のための新しいスキームを提案する。
特に、入力シーンの統計をオンライントレーニングで特徴付け吸収するディープラーニングモデルは、レートユーティリティ最適化という意味で効率的に表現でき、ビットストリームのエンハンスメント層として機能する。
これにより、組み込まれた新しいモダリティを最適化することで、全体的なパフォーマンスをさらに保証することができる。
提案手法は最先端ビデオ符号化標準(多用途ビデオ符号化)に実装されており,広範な評価に基づいて表現能力が大幅に向上している。
関連論文リスト
- HUPE: Heuristic Underwater Perceptual Enhancement with Semantic Collaborative Learning [62.264673293638175]
既存の水中画像強調法は主に視覚的品質の向上に重点を置いており、実際的な意味を見落としている。
視覚的品質を高め,他の下流タスクに対処する柔軟性を示す,水中知覚向上のための可逆的ネットワークHを提案する。
論文 参考訳(メタデータ) (2024-11-27T12:37:03Z) - High Efficiency Image Compression for Large Visual-Language Models [14.484831372497437]
大規模視覚言語モデル(LVLM)は、マルチモーダルタスクにおいて優れた性能と有望な一般化能力を示している。
本稿では,事前編集モジュールとエンドツーエンドから構成される可変画像圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-24T07:37:12Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Interactive Face Video Coding: A Generative Compression Framework [18.26476468644723]
本稿では,対話型顔映像符号化(IFVC)のための新しいフレームワークを提案する。
提案手法には,超コンパクト表現,低遅延相互作用,鮮明な表現と主目的アニメーションなど,いくつかの利点がある。
論文 参考訳(メタデータ) (2023-02-20T11:24:23Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Adaptive Compact Attention For Few-shot Video-to-video Translation [13.535988102579918]
本稿では,複数の参照画像からコンテキスト特徴を効率的に抽出する適応型コンパクトアテンション機構を提案する。
我々の中心となる考え方は、すべての参照画像からより高レベルな表現としてコンパクトな基底集合を抽出することである。
提案手法を大規模トーキングヘッドビデオデータセットと人間のダンスデータセットで広範囲に評価した。
論文 参考訳(メタデータ) (2020-11-30T11:19:12Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。