論文の概要: Locality-Aware Generalizable Implicit Neural Representation
- arxiv url: http://arxiv.org/abs/2310.05624v2
- Date: Thu, 12 Oct 2023 05:33:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 11:31:14.674842
- Title: Locality-Aware Generalizable Implicit Neural Representation
- Title(参考訳): 局所性を考慮した一般化暗黙的神経表現
- Authors: Doyup Lee, Chiheon Kim, Minsu Cho, Wook-Shin Han
- Abstract要約: 一般化可能な暗黙的ニューラル表現(INR)は、単一の連続関数が複数のデータインスタンスを表現することを可能にする。
本稿では、変換器エンコーダと局所性を考慮したINRデコーダを組み合わせた一般化可能なINRのための新しいフレームワークを提案する。
我々のフレームワークは、従来の一般化可能なINRよりも大幅に優れており、下流タスクにおける局所性を考慮した潜在能力の有効性を検証している。
- 参考スコア(独自算出の注目度): 54.93702310461174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalizable implicit neural representation (INR) enables a single
continuous function, i.e., a coordinate-based neural network, to represent
multiple data instances by modulating its weights or intermediate features
using latent codes. However, the expressive power of the state-of-the-art
modulation is limited due to its inability to localize and capture fine-grained
details of data entities such as specific pixels and rays. To address this
issue, we propose a novel framework for generalizable INR that combines a
transformer encoder with a locality-aware INR decoder. The transformer encoder
predicts a set of latent tokens from a data instance to encode local
information into each latent token. The locality-aware INR decoder extracts a
modulation vector by selectively aggregating the latent tokens via
cross-attention for a coordinate input and then predicts the output by
progressively decoding with coarse-to-fine modulation through multiple
frequency bandwidths. The selective token aggregation and the multi-band
feature modulation enable us to learn locality-aware representation in spatial
and spectral aspects, respectively. Our framework significantly outperforms
previous generalizable INRs and validates the usefulness of the locality-aware
latents for downstream tasks such as image generation.
- Abstract(参考訳): generalizable implicit neural representation (inr)は、単一の連続関数、すなわち座標ベースのニューラルネットワークが、潜在コードを用いて重みや中間特徴を変調することで、複数のデータインスタンスを表現できる。
しかし、最先端変調の表現力は、特定のピクセルや光線などのデータエンティティの詳細な詳細をローカライズおよびキャプチャできないために制限されている。
この問題に対処するために,変換器エンコーダと局所性を考慮したINRデコーダを組み合わせた一般化可能なINRフレームワークを提案する。
トランスコーダは、データインスタンスから潜在トークンのセットを予測して、各潜在トークンにローカル情報をエンコードする。
局所性認識INRデコーダは、座標入力のクロスアテンションを介して潜在トークンを選択的に集約して変調ベクトルを抽出し、複数の周波数帯域を通して粗大な変調で段階的に復号することで出力を予測する。
選択的トークンアグリゲーションとマルチバンド特徴変調により,空間的およびスペクトル的側面における局所性認識表現をそれぞれ学習できる。
このフレームワークは,従来の一般化したinrsを著しく上回っており,画像生成などの下流タスクにおける局所性を考慮した潜在子の有用性を検証している。
関連論文リスト
- INCODE: Implicit Neural Conditioning with Prior Knowledge Embeddings [4.639495398851869]
Inlicit Neural Representation (INR)は、複雑なデータの連続的かつ滑らかな表現を提供するためにニューラルネットワークを活用することで、信号表現に革命をもたらした。
InCODEは、深い事前知識を用いて、INRにおける正弦波ベースの活性化関数の制御を強化する新しいアプローチである。
提案手法は表現力に優れるだけでなく,音声,画像,3次元形状復元などの複雑な課題に対処する能力も拡張している。
論文 参考訳(メタデータ) (2023-10-28T23:16:49Z) - Disorder-invariant Implicit Neural Representation [32.510321385245774]
入射神経表現(INR)は、信号の属性を対応する座標の関数として特徴づける。
本稿では、従来のINRバックボーンにハッシュテーブルを付加することにより、障害不変な暗黙的神経表現(DINER)を提案する。
論文 参考訳(メタデータ) (2023-04-03T09:28:48Z) - DINER: Disorder-Invariant Implicit Neural Representation [33.10256713209207]
入射神経表現(INR)は、信号の属性を対応する座標の関数として特徴づける。
本稿では、従来のINRバックボーンにハッシュテーブルを付加することにより、障害不変な暗黙的神経表現(DINER)を提案する。
論文 参考訳(メタデータ) (2022-11-15T03:34:24Z) - Signal Processing for Implicit Neural Representations [80.38097216996164]
Inlicit Neural Representation (INR)は、マルチ層パーセプトロンを介して連続したマルチメディアデータを符号化する。
既存の作業は、その離散化されたインスタンスの処理を通じて、そのような連続的な表現を操作する。
本稿では,INSP-Netと呼ばれる暗黙的ニューラル信号処理ネットワークを提案する。
論文 参考訳(メタデータ) (2022-10-17T06:29:07Z) - Neural Implicit Dictionary via Mixture-of-Expert Training [111.08941206369508]
ニューラルインシシット辞書(NID)を学習することで、データとトレーニング効率の両方を達成する汎用INRフレームワークを提案する。
我々のNIDは、所望の関数空間にまたがるように調整された座標ベースのImpworksのグループを組み立てる。
実験の結果,NIDは最大98%の入力データで2次元画像や3次元シーンの再現を2桁高速化できることがわかった。
論文 参考訳(メタデータ) (2022-07-08T05:07:19Z) - PINs: Progressive Implicit Networks for Multi-Scale Neural
Representations [68.73195473089324]
周波数符号化のインクリメンタルな集合に階層構造を露出するプログレッシブな位置符号化を提案する。
本モデルでは,広帯域のシーンを正確に再構成し,プログレッシブなディテールでシーン表現を学習する。
いくつかの2次元および3次元データセットの実験では、ベースラインと比較して、再構築精度、表現能力、トレーニング速度が改善されている。
論文 参考訳(メタデータ) (2022-02-09T20:33:37Z) - Rethinking Global Context in Crowd Counting [70.54184500538338]
純粋な変換器は、重なり合う画像パッチからグローバル情報で特徴を抽出するために用いられる。
分類によってインスピレーションを得て、入力シーケンスにコンテキストトークンを追加し、画像パッチに対応するトークンと情報交換を容易にする。
論文 参考訳(メタデータ) (2021-05-23T12:44:27Z) - Volumetric Transformer Networks [88.85542905676712]
学習可能なモジュールである容積変換器ネットワーク(VTN)を導入する。
VTNは、中間CNNの空間的およびチャネル的特徴を再設定するために、チャネル回りの歪み場を予測する。
実験の結果,VTNは特徴量の表現力を一貫して向上し,細粒度画像認識とインスタンスレベルの画像検索におけるネットワークの精度が向上することがわかった。
論文 参考訳(メタデータ) (2020-07-18T14:00:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。