論文の概要: Learning Continuous Image Representation with Local Implicit Image
Function
- arxiv url: http://arxiv.org/abs/2012.09161v2
- Date: Thu, 1 Apr 2021 13:33:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 03:07:22.944719
- Title: Learning Continuous Image Representation with Local Implicit Image
Function
- Title(参考訳): 局所暗黙的画像関数を用いた連続画像表現の学習
- Authors: Yinbo Chen, Sifei Liu, Xiaolong Wang
- Abstract要約: 画像座標と座標周辺の2次元深部特徴を入力として捉えたLIIF表現を、所定の座標におけるRGB値を出力として予測する。
画像の連続表現を生成するために、LIIF表現のエンコーダをスーパーレゾリューションの自己監視タスクを介してトレーニングします。
学習された連続表現は任意の解像度で x30 の高分解能まで外挿することができる。
- 参考スコア(独自算出の注目度): 21.27344998709831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to represent an image? While the visual world is presented in a
continuous manner, machines store and see the images in a discrete way with 2D
arrays of pixels. In this paper, we seek to learn a continuous representation
for images. Inspired by the recent progress in 3D reconstruction with implicit
neural representation, we propose Local Implicit Image Function (LIIF), which
takes an image coordinate and the 2D deep features around the coordinate as
inputs, predicts the RGB value at a given coordinate as an output. Since the
coordinates are continuous, LIIF can be presented in arbitrary resolution. To
generate the continuous representation for images, we train an encoder with
LIIF representation via a self-supervised task with super-resolution. The
learned continuous representation can be presented in arbitrary resolution even
extrapolate to x30 higher resolution, where the training tasks are not
provided. We further show that LIIF representation builds a bridge between
discrete and continuous representation in 2D, it naturally supports the
learning tasks with size-varied image ground-truths and significantly
outperforms the method with resizing the ground-truths.
- Abstract(参考訳): 画像をどう表現するか?
視覚の世界は連続的に表現されるが、マシンは画像を2次元のピクセル配列で個別に保存して見ることができる。
本稿では,画像の連続表現について学ぶ。
暗黙的ニューラル表現を用いた最近の3次元再構成の進歩に触発されて,画像座標と2次元深部特徴を入力として取り出すローカルインプリシット画像関数 (LIIF) を提案し,所定の座標におけるRGB値を出力として予測する。
座標は連続であるため、liif は任意の分解能で表現できる。
画像の連続表現を生成するために,超解像度の自己教師型タスクを通じてLIIF表現を持つエンコーダを訓練する。
学習された連続表現は、訓練タスクが提供されないx30高解像度の任意の解像度で表現することができる。
さらに、LIIF表現は2次元の離散的表現と連続的表現の間に橋渡しを行い、画像のサイズの異なる学習タスクを自然にサポートし、グラウンドトゥルースを縮小する手法よりもはるかに優れていることを示す。
関連論文リスト
- CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - SAIR: Learning Semantic-aware Implicit Representation [23.842761556556216]
画像の暗示表現は、連続領域の任意の座標を対応する色値にマッピングすることができる。
既存の暗黙の表現アプローチは、連続した外見マッピングの構築にのみ焦点をあてる。
我々は,意味認識型暗黙表現(SAIR)を学習し,各画素の暗黙表現をその外観と意味情報の両方に依存するようにした。
論文 参考訳(メタデータ) (2023-10-13T17:52:16Z) - Dynamic Implicit Image Function for Efficient Arbitrary-Scale Image
Representation [24.429100808481394]
任意の解像度の画像を高速かつ効率的に表現できる動的インプリシット画像関数(DIIF)を提案する。
本稿では,座標スライスから画素値スライスへのデコードを可能にする座標グルーピングとスライス戦略を提案する。
動的座標スライシングにより、DIIFは任意のスケールのSRに遭遇する際の計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2023-06-21T15:04:34Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - Single Image Super-Resolution via a Dual Interactive Implicit Neural
Network [5.331665215168209]
本稿では,任意のスケール因子における単一画像の超解像処理のための新しい暗黙的ニューラルネットワークを提案する。
公開されているベンチマークデータセット上で、最先端技術に対するアプローチの有効性と柔軟性を実証する。
論文 参考訳(メタデータ) (2022-10-23T02:05:19Z) - Adaptive Local Implicit Image Function for Arbitrary-scale
Super-resolution [61.95533972380704]
局所暗黙画像関数(LIIF)は、対応する座標を入力として、画素値が拡張される連続関数として画像を表す。
LIIFは任意のスケールの超解像タスクに適用でき、その結果、様々なアップスケーリング要因に対して単一の効率的かつ効率的なモデルが得られる。
この問題を軽減するために,新しい適応型局所像関数(A-LIIF)を提案する。
論文 参考訳(メタデータ) (2022-08-07T11:23:23Z) - CompNVS: Novel View Synthesis with Scene Completion [83.19663671794596]
本稿では,スパースグリッドに基づくニューラルシーン表現を用いた生成パイプラインを提案する。
画像特徴を3次元空間に符号化し、幾何学的完備化ネットワークとその後のテクスチャ塗布ネットワークを用いて、欠落した領域を外挿する。
フォトリアリスティック画像列は、整合性関連微分可能レンダリングによって最終的に得られる。
論文 参考訳(メタデータ) (2022-07-23T09:03:13Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z) - Self-Supervised 2D Image to 3D Shape Translation with Disentangled
Representations [92.89846887298852]
本稿では,2次元画像ビューと3次元オブジェクト形状を翻訳するフレームワークを提案する。
形状変換のための自己教師型画像変換フレームワークであるSISTを提案する。
論文 参考訳(メタデータ) (2020-03-22T22:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。