論文の概要: Connecting NeRFs, Images, and Text
- arxiv url: http://arxiv.org/abs/2404.07993v1
- Date: Thu, 11 Apr 2024 17:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 12:49:46.922208
- Title: Connecting NeRFs, Images, and Text
- Title(参考訳): NeRF、画像、テキストの接続
- Authors: Francesco Ballerini, Pierluigi Zama Ramirez, Roberto Mirabella, Samuele Salti, Luigi Di Stefano,
- Abstract要約: テキストと画像処理のためのマルチモーダルモデルとともに,NeRF表現の事前学習モデルを利用するフレームワークを提案する。
本フレームワークは,NeRF埋め込みと対応する画像とテキストの双方向マッピングを学習する。
このマッピングは、NeRFゼロショット分類や、画像やテキストからのNeRF検索など、新規で有用ないくつかのアプリケーションをアンロックする。
- 参考スコア(独自算出の注目度): 17.065291692882635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural Radiance Fields (NeRFs) have emerged as a standard framework for representing 3D scenes and objects, introducing a novel data type for information exchange and storage. Concurrently, significant progress has been made in multimodal representation learning for text and image data. This paper explores a novel research direction that aims to connect the NeRF modality with other modalities, similar to established methodologies for images and text. To this end, we propose a simple framework that exploits pre-trained models for NeRF representations alongside multimodal models for text and image processing. Our framework learns a bidirectional mapping between NeRF embeddings and those obtained from corresponding images and text. This mapping unlocks several novel and useful applications, including NeRF zero-shot classification and NeRF retrieval from images or text.
- Abstract(参考訳): Neural Radiance Fields (NeRF) は3Dシーンやオブジェクトを表現するための標準フレームワークとして登場し、情報交換と記憶のための新しいデータ型を導入している。
同時に、テキストや画像データのマルチモーダル表現学習にも大きな進歩があった。
本稿では,NeRFモダリティと他のモダリティを結びつけるための新たな研究方向について検討する。
そこで本研究では,テキストと画像処理のためのマルチモーダルモデルとともに,NeRF表現の事前学習モデルを利用するシンプルなフレームワークを提案する。
本フレームワークは,NeRF埋め込みと対応する画像とテキストの双方向マッピングを学習する。
このマッピングは、NeRFゼロショット分類や、画像やテキストからのNeRF検索など、新規で有用ないくつかのアプリケーションをアンロックする。
関連論文リスト
- Cross-Modal Attention Alignment Network with Auxiliary Text Description for zero-shot sketch-based image retrieval [10.202562518113677]
ゼロショットスケッチに基づく画像検索のための補助テキスト記述を用いたクロスモーダルアライメント・アライメント・ネットワークを提案する。
私たちの重要なイノベーションは、画像の補助情報としてテキストデータを使用することであり、それによって言語が提供する本質的にゼロショットの一般化能力を活用することです。
論文 参考訳(メタデータ) (2024-07-01T05:32:06Z) - NeRF-VPT: Learning Novel View Representations with Neural Radiance
Fields via View Prompt Tuning [63.39461847093663]
本研究では,これらの課題に対処するための新しいビュー合成手法であるNeRF-VPTを提案する。
提案するNeRF-VPTは、先行レンダリング結果から得られたRGB情報を、その後のレンダリングステージのインストラクティブな視覚的プロンプトとして機能するカスケーディングビュープロンプトチューニングパラダイムを用いている。
NeRF-VPTは、追加のガイダンスや複雑なテクニックに頼ることなく、トレーニングステージ毎に前のステージレンダリングからRGBデータをサンプリングするだけである。
論文 参考訳(メタデータ) (2024-03-02T22:08:10Z) - 3D Visibility-aware Generalizable Neural Radiance Fields for Interacting
Hands [51.305421495638434]
ニューラル放射場(NeRF)は、シーン、オブジェクト、人間の3D表現を約束する。
本稿では,手動操作のための一般化可能な視認可能なNeRFフレームワークを提案する。
Interhand2.6Mデータセットの実験により、提案したVA-NeRFは従来のNeRFよりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2024-01-02T00:42:06Z) - NeRFuser: Large-Scale Scene Representation by NeRF Fusion [35.749208740102546]
Neural Radiance Fields (NeRF)のような暗黙的な視覚表現の実用的な利点は、そのメモリ効率である。
既製のNeRFへのアクセスのみを前提としたNeRF登録とブレンディングのための新しいアーキテクチャであるNeRFuserを提案する。
論文 参考訳(メタデータ) (2023-05-22T17:59:05Z) - Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and
Reconstruction [77.69363640021503]
3D対応画像合成は、シーン生成や画像からの新規ビュー合成など、様々なタスクを含む。
本稿では,様々な物体の多視点画像から,ニューラルラディアンス場(NeRF)の一般化可能な事前学習を行うために,表現拡散モデルを用いた統一的アプローチであるSSDNeRFを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:59:01Z) - StegaNeRF: Embedding Invisible Information within Neural Radiance Fields [61.653702733061785]
我々は、NeRFレンダリングにステガノグラフィー情報を埋め込む方法であるStegaNeRFを提案する。
我々は、NeRFで描画された画像から正確な隠れ情報抽出を可能にする最適化フレームワークを設計する。
StegaNeRFは、NeRFレンダリングにカスタマイズ可能で、認識不能で、回復不能な情報を注入する新しい問題に対する最初の調査である。
論文 参考訳(メタデータ) (2022-12-03T12:14:19Z) - PeRFception: Perception using Radiance Fields [72.99583614735545]
私たちは、PeRFceptionと呼ばれる知覚タスクのための、最初の大規模な暗黙的表現データセットを作成します。
元のデータセットからかなりのメモリ圧縮率 (96.4%) を示し、2D情報と3D情報の両方を統一形式で格納している。
この暗黙の形式を直接入力する分類とセグメンテーションモデルを構築し、画像の背景に過度に収まらないよう、新しい拡張手法を提案する。
論文 参考訳(メタデータ) (2022-08-24T13:32:46Z) - pixelNeRF: Neural Radiance Fields from One or Few Images [20.607712035278315]
pixelNeRFは、1つまたは少数の入力画像に条件付された連続的なニューラルシーン表現を予測する学習フレームワークである。
本研究では,単一画像の新規ビュー合成タスクのためのShapeNetベンチマーク実験を行った。
いずれの場合も、ピクセルNeRFは、新しいビュー合成とシングルイメージ3D再構成のための最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-12-03T18:59:54Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。