論文の概要: VisCode: Embedding Information in Visualization Images using
Encoder-Decoder Network
- arxiv url: http://arxiv.org/abs/2009.03817v1
- Date: Mon, 7 Sep 2020 15:48:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 03:25:30.289393
- Title: VisCode: Embedding Information in Visualization Images using
Encoder-Decoder Network
- Title(参考訳): VisCode: Encoder-Decoder Network を用いた可視化画像への情報埋め込み
- Authors: Peiying Zhang, Chenhui Li, Changbo Wang
- Abstract要約: 可視化画像に情報を埋め込むためのVisCodeという手法を提案する。
この技術は、符号化された可視化画像が歪まないことを保証しながら、ユーザが指定したデータ情報を視覚化に暗黙的に埋め込むことができる。
可視化画像とQRコードデータをトレーニングデータとして使用し、堅牢なディープエンコーダデコーダネットワークを設計することを提案する。
- 参考スコア(独自算出の注目度): 16.154834979463562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an approach called VisCode for embedding information into
visualization images. This technology can implicitly embed data information
specified by the user into a visualization while ensuring that the encoded
visualization image is not distorted. The VisCode framework is based on a deep
neural network. We propose to use visualization images and QR codes data as
training data and design a robust deep encoder-decoder network. The designed
model considers the salient features of visualization images to reduce the
explicit visual loss caused by encoding. To further support large-scale
encoding and decoding, we consider the characteristics of information
visualization and propose a saliency-based QR code layout algorithm. We present
a variety of practical applications of VisCode in the context of information
visualization and conduct a comprehensive evaluation of the perceptual quality
of encoding, decoding success rate, anti-attack capability, time performance,
etc. The evaluation results demonstrate the effectiveness of VisCode.
- Abstract(参考訳): 可視化画像に情報を埋め込むためのVisCodeという手法を提案する。
この技術は、ユーザが指定したデータ情報を暗黙的に視覚化し、符号化された可視化画像が歪まないようにする。
VisCodeフレームワークはディープニューラルネットワークに基づいている。
可視化画像とQRコードデータをトレーニングデータとして使用し、堅牢なディープエンコーダデコーダネットワークを設計することを提案する。
設計モデルは、画像の鮮やかな特徴を考慮し、符号化による視覚的損失を低減する。
大規模符号化と復号化をさらに支援するため,情報可視化の特徴を考察し,サリエンシに基づくQRコードレイアウトアルゴリズムを提案する。
本稿では,情報可視化の文脈における VisCode の実践的応用について紹介し,符号化,復号化,アンチアタック機能,時間性能などの知覚的品質を包括的に評価する。
評価結果はVisCodeの有効性を示す。
関連論文リスト
- See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - HAAV: Hierarchical Aggregation of Augmented Views for Image Captioning [25.728621355173626]
本稿では,エンコーディングを入力画像の拡張ビューとみなす。
画像キャプションモデルは、共有エンコーダと独立して各ビューをエンコードする。
我々は,MS-COCOでは+5.6%,Flickr30kでは+12.9%の性能向上を示す。
論文 参考訳(メタデータ) (2023-05-25T17:50:17Z) - CNeRV: Content-adaptive Neural Representation for Visual Data [54.99373641890767]
本稿では、自動エンコーダの一般化性と暗黙的表現の単純さとコンパクトさを組み合わせた、コンテンツ適応型埋め込み(CNeRV)によるニューラルビジュアル表現を提案する。
我々は、トレーニング中にスキップされたフレーム(見えない画像)をはるかに上回りながら、トレーニング中に見られるフレームの再構築作業において、最先端の暗黙のニューラル表現であるNERVのパフォーマンスを一致させる。
同じ遅延コード長と類似のモデルサイズで、CNeRVは、見えていない画像と見えない画像の両方の再構成においてオートエンコーダより優れている。
論文 参考訳(メタデータ) (2022-11-18T18:35:43Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Visual Feature Encoding for GNNs on Road Networks [14.274582421372308]
視覚バックボーンネットワークとグラフニューラルネットワークを組み合わせたアーキテクチャを提案する。
衛星画像の符号化により,オープンストリートマップ道路網上で道路型分類タスクを行う。
アーキテクチャによりさらに微調整が可能となり,事前学習により伝達学習のアプローチが評価される。
論文 参考訳(メタデータ) (2022-03-02T15:37:50Z) - Empirical Analysis of Image Caption Generation using Deep Learning [0.0]
我々は,マルチモーダル画像キャプションネットワークの様々なフレーバーを実装し,実験した。
目標は、さまざまな評価指標を使用して、各アプローチのパフォーマンスを分析することである。
論文 参考訳(メタデータ) (2021-05-14T05:38:13Z) - Image Captioning using Deep Stacked LSTMs, Contextual Word Embeddings
and Data Augmentation [1.2183405753834562]
Inception-ResNet Convolutional Neural Network をエンコーダとして,画像から特徴を抽出する。
また、単語表現には階層型コンテキストベースのWord Embeddings、デコーダにはDeep Stacked Long Term Memory Networkを使用します。
提案手法をデコーダとソフトアテンションの2つの画像キャプションフレームワークを用いて評価する。
論文 参考訳(メタデータ) (2021-02-22T18:15:39Z) - SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text
Recognition [17.191496890376197]
そこで我々は,低品質シーンテキストを頑健に認識するために,エンコーダ・デコーダ・フレームワークを改良したセマンティクスを提案する。
提案するフレームワークは、低品質のテキスト画像に対してより堅牢であり、いくつかのベンチマークデータセットで最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-05-22T03:02:46Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。