論文の概要: Quantised Global Autoencoder: A Holistic Approach to Representing Visual Data
- arxiv url: http://arxiv.org/abs/2407.11913v2
- Date: Mon, 5 Aug 2024 17:50:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 20:19:11.402565
- Title: Quantised Global Autoencoder: A Holistic Approach to Representing Visual Data
- Title(参考訳): 量子化グローバルオートエンコーダ:ビジュアルデータ表現のための全体論的アプローチ
- Authors: Tim Elsner, Paula Usinger, Victor Czech, Gregor Kobsik, Yanjiang He, Isaak Lim, Leif Kobbelt,
- Abstract要約: 量子化されたオートエンコーダでは、画像は通常、局所的なパッチに分割され、それぞれが1つのトークンでエンコードされる。
本手法は,入力信号を大域周波数の重畳に変換するスペクトル分解に着想を得たものである。
- 参考スコア(独自算出の注目度): 7.152103069753289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In quantised autoencoders, images are usually split into local patches, each encoded by one token. This representation is redundant in the sense that the same number of tokens is spend per region, regardless of the visual information content in that region. Adaptive discretisation schemes like quadtrees are applied to allocate tokens for patches with varying sizes, but this just varies the region of influence for a token which nevertheless remains a local descriptor. Modern architectures add an attention mechanism to the autoencoder which infuses some degree of global information into the local tokens. Despite the global context, tokens are still associated with a local image region. In contrast, our method is inspired by spectral decompositions which transform an input signal into a superposition of global frequencies. Taking the data-driven perspective, we learn custom basis functions corresponding to the codebook entries in our VQ-VAE setup. Furthermore, a decoder combines these basis functions in a non-linear fashion, going beyond the simple linear superposition of spectral decompositions. We can achieve this global description with an efficient transpose operation between features and channels and demonstrate our performance on compression.
- Abstract(参考訳): 量子化されたオートエンコーダでは、画像は通常、局所的なパッチに分割され、それぞれが1つのトークンでエンコードされる。
この表現は、その領域の視覚情報の内容に関係なく、同じ数のトークンが各領域に費やされているという意味では冗長である。
クアッドツリーのような適応的な離散化スキームは、異なる大きさのパッチに対するトークンの割り当てに適用されるが、それでもローカルな記述子のままであるトークンに対する影響の領域だけを変える。
現代のアーキテクチャでは、ローカルトークンにある程度のグローバル情報を注入するオートエンコーダにアテンションメカニズムが追加されている。
グローバルなコンテキストにもかかわらず、トークンは依然としてローカルイメージ領域と関連付けられている。
対照的に、本手法は入力信号を大域周波数重畳に変換するスペクトル分解に着想を得たものである。
データ駆動の観点から、VQ-VAEセットアップのコードブックエントリに対応するカスタムベース関数を学習する。
さらに、デコーダはこれらの基底関数を非線形に結合し、スペクトル分解の単純な線型重ね合わせを超越する。
このグローバルな記述は,機能とチャネル間の効率的な変換操作によって実現し,圧縮性能を実証することができる。
関連論文リスト
- LGFCTR: Local and Global Feature Convolutional Transformer for Image
Matching [8.503217766507584]
局所的文脈とグローバル構造の両方を捉えるために,新しい畳み込み変換器を提案する。
普遍的なFPNライクなフレームワークは、トランスフォーマーによるクロスデコーダと同様に、自己エンコーダ内のグローバル構造をキャプチャする。
新たなレグレッションベースのサブピクセルリファインメントモジュールは、微粒なウィンドウ特徴を微粒な位置ずれレグレッションに活用する。
論文 参考訳(メタデータ) (2023-11-29T12:06:19Z) - Locality-Aware Generalizable Implicit Neural Representation [54.93702310461174]
一般化可能な暗黙的ニューラル表現(INR)は、単一の連続関数が複数のデータインスタンスを表現することを可能にする。
本稿では、変換器エンコーダと局所性を考慮したINRデコーダを組み合わせた一般化可能なINRのための新しいフレームワークを提案する。
我々のフレームワークは、従来の一般化可能なINRよりも大幅に優れており、下流タスクにおける局所性を考慮した潜在能力の有効性を検証している。
論文 参考訳(メタデータ) (2023-10-09T11:26:58Z) - Local2Global: A distributed approach for scaling representation learning
on graphs [10.254620252788776]
本稿では,グラフ表現学習における分散型「ローカル2言語」アプローチを提案する。
提案手法は,エッジ再構築におけるスケールと精度の良好なトレードオフと半教師付き分類を実現する。
また、異常検出の下流タスクについても検討し、ローカル2globalを使ってサイバーセキュリティネットワークの異常を強調できることを示す。
論文 参考訳(メタデータ) (2022-01-12T23:00:22Z) - Locally Shifted Attention With Early Global Integration [93.5766619842226]
本稿では,視覚変換器の初期層において,大域的相互作用と局所的相互作用の微粒化を可能にする手法を提案する。
CIFAR10, CIFAR100, ImageNetにおける画像分類において, 畳み込み法と変圧器法の両方よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-12-09T18:12:24Z) - A Volumetric Transformer for Accurate 3D Tumor Segmentation [25.961484035609672]
本稿では,医療画像セグメンテーションのためのトランスフォーマーアーキテクチャを提案する。
TransformerはU字型のボリュームエンコーダデコーダ設計で、入力ボクセル全体を処理している。
モデルがデータセット間でより良い表現を転送し、データの破損に対して堅牢であることを示します。
論文 参考訳(メタデータ) (2021-11-26T02:49:51Z) - Global and Local Alignment Networks for Unpaired Image-to-Image
Translation [170.08142745705575]
未ペア画像から画像への変換の目的は、対象領域のスタイルを反映した出力画像を作成することである。
既存の手法では内容変化に注意が払われていないため、ソース画像からの意味情報は翻訳中の劣化に悩まされる。
我々はGLA-Net(Global and Local Alignment Networks)という新しいアプローチを導入する。
本手法は既存の手法よりもシャープでリアルな画像を効果的に生成する。
論文 参考訳(メタデータ) (2021-11-19T18:01:54Z) - Improving Visual Quality of Image Synthesis by A Token-based Generator
with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。
提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2021-11-05T12:57:50Z) - Rethinking Global Context in Crowd Counting [70.54184500538338]
純粋な変換器は、重なり合う画像パッチからグローバル情報で特徴を抽出するために用いられる。
分類によってインスピレーションを得て、入力シーケンスにコンテキストトークンを追加し、画像パッチに対応するトークンと情報交換を容易にする。
論文 参考訳(メタデータ) (2021-05-23T12:44:27Z) - SceneEncoder: Scene-Aware Semantic Segmentation of Point Clouds with A
Learnable Scene Descriptor [51.298760338410624]
本研究では,グローバル情報の効果を高めるために,シーン認識型ガイダンスを付加するSceneEncoderモジュールを提案する。
モジュールはシーン記述子を予測し、シーンに存在するオブジェクトのカテゴリを表現することを学習する。
また,同じラベルを持つ隣接点に対する特徴の識別を伝搬する領域類似度損失を設計する。
論文 参考訳(メタデータ) (2020-01-24T16:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。