論文の概要: Progressive Volume Distillation with Active Learning for Efficient NeRF Architecture Conversion
- arxiv url: http://arxiv.org/abs/2304.04012v2
- Date: Sat, 18 May 2024 07:30:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 01:10:43.952613
- Title: Progressive Volume Distillation with Active Learning for Efficient NeRF Architecture Conversion
- Title(参考訳): 効率的なNeRFアーキテクチャ変換のためのアクティブラーニングによる進行ボリューム蒸留
- Authors: Shuangkang Fang, Yufeng Wang, Yi Yang, Weixin Xu, Heng Wang, Wenrui Ding, Shuchang Zhou,
- Abstract要約: ニューラルフィールド(NeRF)は3次元シーンの実用的で汎用的な表現として広く採用されている。
本稿では, 系統的蒸留法として, アクティブラーニングを用いたプログレッシブボリューム蒸留法 (PVD-AL) を提案する。
PVD-ALは、各構造を2つの部分に分解し、より浅い体積表現からより深い体積表現への蒸留を徐々に行う。
- 参考スコア(独自算出の注目度): 27.389511043400635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Radiance Fields (NeRF) have been widely adopted as practical and versatile representations for 3D scenes, facilitating various downstream tasks. However, different architectures, including the plain Multi-Layer Perceptron (MLP), Tensors, low-rank Tensors, Hashtables, and their combinations, entail distinct trade-offs. For instance, representations based on Hashtables enable faster rendering but lack clear geometric meaning, thereby posing challenges for spatial-relation-aware editing. To address this limitation and maximize the potential of each architecture, we propose Progressive Volume Distillation with Active Learning (PVD-AL), a systematic distillation method that enables any-to-any conversion between diverse architectures. PVD-AL decomposes each structure into two parts and progressively performs distillation from shallower to deeper volume representation, leveraging effective information retrieved from the rendering process. Additionally, a three-level active learning technique provides continuous feedback from teacher to student during the distillation process, achieving high-performance outcomes. Experimental evidence showcases the effectiveness of our method across multiple benchmark datasets. For instance, PVD-AL can distill an MLP-based model from a Hashtables-based model at a 10~20X faster speed and 0.8dB~2dB higher PSNR than training the MLP-based model from scratch. Moreover, PVD-AL permits the fusion of diverse features among distinct structures, enabling models with multiple editing properties and providing a more efficient model to meet real-time requirements like mobile devices. Project website: https://sk-fun.fun/PVD-AL.
- Abstract(参考訳): ニューラル・ラジアンス・フィールド(NeRF)は、3Dシーンの実用的で多用途な表現として広く採用されており、様々な下流タスクを容易にしている。
しかし、Multi-Layer Perceptron (MLP)、Tensors、低ランクのTensors、Hashtables、およびそれらの組み合わせを含む様々なアーキテクチャは、異なるトレードオフを必要とする。
例えば、Hashtablesに基づく表現はより高速なレンダリングを可能にするが、明確な幾何学的意味が欠如しているため、空間関係対応編集の課題を提起する。
この制限に対処し, 各アーキテクチャのポテンシャルを最大化するために, 多様なアーキテクチャ間の任意の変換を可能にする系統的蒸留法である, PVD-AL(Progressive Volume Distillation with Active Learning)を提案する。
PVD-ALは、各構造を2つの部分に分解し、より浅いものからより深いボリューム表現への蒸留を段階的に実行し、レンダリングプロセスから取得した有効な情報を活用する。
さらに,3段階の能動学習技術により,蒸留プロセス中に教師から生徒への継続的なフィードバックが得られ,高い結果が得られた。
複数のベンチマークデータセットにまたがって,本手法の有効性を示す実験的エビデンスを示す。
例えば、PVD-ALは、Hashtablesベースのモデルから10~20倍高速かつ0.8dB~2dB高いPSNRでMLPベースのモデルを蒸留することができる。
さらにPVD-ALは、異なる構造間の多様な機能の融合を可能にし、複数の編集特性を持つモデルを可能にし、モバイルデバイスのようなリアルタイム要件を満たすためのより効率的なモデルを提供する。
プロジェクトウェブサイト: https://sk-fun.fun/PVD-AL.com
関連論文リスト
- Data-to-Model Distillation: Data-Efficient Learning Framework [14.44010988811002]
本稿では,データ・ツー・モデル蒸留(Data-to-Model Distillation, D2M)と呼ばれる新しいフレームワークを提案する。
提案手法は,高解像度の128x128 ImageNet-1Kまで効果的にスケールアップする。
論文 参考訳(メタデータ) (2024-11-19T20:10:28Z) - FSD-BEV: Foreground Self-Distillation for Multi-view 3D Object Detection [33.225938984092274]
本稿では,分散の相違を効果的に回避するFSD方式を提案する。
また2つのポイントクラウド拡張(PCI)戦略を設計し、ポイントクラウドの幅を補う。
マルチスケール・フォアグラウンド・エンハンスメント(MSFE)モジュールを開発し,マルチスケール・フォアグラウンドの特徴を抽出・融合する。
論文 参考訳(メタデータ) (2024-07-14T09:39:44Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - AM-RADIO: Agglomerative Vision Foundation Model -- Reduce All Domains Into One [47.58919672657824]
このアプローチをAM-RADIO(Agglomerative Model -- すべてのドメインを1に還元する)と名付けます。
教師モデルより少なくとも7倍高速な新しいアーキテクチャ(E-RADIO)を開発した。
包括的なベンチマークプロセスでは、ImageNet分類、ADE20kセマンティックセグメンテーション、COCOオブジェクト検出、LLaVa-1.5フレームワークなどの下流タスクをカバーしています。
論文 参考訳(メタデータ) (2023-12-10T17:07:29Z) - ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge [63.00793292863]
ToddlerDiffusionは、RGB画像生成の複雑なタスクを、よりシンプルで解釈可能なステージに分解するための新しいアプローチである。
提案手法はToddler Diffusionと呼ばれ,それぞれが中間表現を生成する責務を担っている。
ToddlerDiffusionは、常に最先端のメソッドより優れています。
論文 参考訳(メタデータ) (2023-11-24T15:20:01Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - SimDistill: Simulated Multi-modal Distillation for BEV 3D Object
Detection [56.24700754048067]
多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難である。
モデルアーキテクチャと蒸留戦略を慎重に構築し,シミュレートされたマルチモーダル蒸留(SimDistill)法を提案する。
我々のSimDistillは、コスト効率のよいカメラのみの配置を維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習することができる。
論文 参考訳(メタデータ) (2023-03-29T16:08:59Z) - One is All: Bridging the Gap Between Neural Radiance Fields
Architectures with Progressive Volume Distillation [26.144617488670963]
ニューラル・ラジアンス・フィールド(NeRF)法は3次元シーンのコンパクトで高品質で多目的な表現として有効であることが証明されている。
様々なニューラルアーキテクチャがNeRFの中核構造を競い合っており、例えば、平らなMulti-Layer Perceptron(MLP)、スペース、低ランクテンソル、ハッシュテーブル、それらの構成などがある。
本稿では,任意の変換が可能な系統蒸留法であるプログレッシブボリューム蒸留(PVD)を提案する。
論文 参考訳(メタデータ) (2022-11-29T07:21:15Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。