論文の概要: PVD-AL: Progressive Volume Distillation with Active Learning for
Efficient Conversion Between Different NeRF Architectures
- arxiv url: http://arxiv.org/abs/2304.04012v1
- Date: Sat, 8 Apr 2023 13:59:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 18:15:34.666430
- Title: PVD-AL: Progressive Volume Distillation with Active Learning for
Efficient Conversion Between Different NeRF Architectures
- Title(参考訳): PVD-AL: 異なるNeRFアーキテクチャ間の効率的な変換のためのアクティブラーニングによるプログレッシブボリューム蒸留
- Authors: Shuangkang Fang, Yufeng Wang, Yi Yang, Weixin Xu, Heng Wang, Wenrui
Ding, Shuchang Zhou
- Abstract要約: PVD-AL (Progressive Volume Distillation with Active Learning) は, 任意の変換が可能な蒸留法である。
PVD-ALは各構造を2つの部分に分解し、より浅い体積表現からより深い体積表現への蒸留を徐々に行う。
3段階のアクティブラーニング技術は蒸留プロセス中に連続的なフィードバックを与え、高性能な結果をもたらす。
- 参考スコア(独自算出の注目度): 29.85325952738878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Radiance Fields (NeRF) have been widely adopted as practical and
versatile representations for 3D scenes, facilitating various downstream tasks.
However, different architectures, including plain Multi-Layer Perceptron (MLP),
Tensors, low-rank Tensors, Hashtables, and their compositions, have their
trade-offs. For instance, Hashtables-based representations allow for faster
rendering but lack clear geometric meaning, making spatial-relation-aware
editing challenging. To address this limitation and maximize the potential of
each architecture, we propose Progressive Volume Distillation with Active
Learning (PVD-AL), a systematic distillation method that enables any-to-any
conversions between different architectures. PVD-AL decomposes each structure
into two parts and progressively performs distillation from shallower to deeper
volume representation, leveraging effective information retrieved from the
rendering process. Additionally, a Three-Levels of active learning technique
provides continuous feedback during the distillation process, resulting in
high-performance results. Empirical evidence is presented to validate our
method on multiple benchmark datasets. For example, PVD-AL can distill an
MLP-based model from a Hashtables-based model at a 10~20X faster speed and
0.8dB~2dB higher PSNR than training the NeRF model from scratch. Moreover,
PVD-AL permits the fusion of diverse features among distinct structures,
enabling models with multiple editing properties and providing a more efficient
model to meet real-time requirements. Project website:http://sk-fun.fun/PVD-AL.
- Abstract(参考訳): neural radiance field (nerf) は3dシーンの実用的かつ汎用的な表現として広く採用され、様々な下流タスクが容易になっている。
しかし、平易な多層パーセプトロン(mlp)、テンソル、低ランクテンソル、ハッシュテーブル、それらの構成を含む異なるアーキテクチャはトレードオフを持っている。
例えば、Hashtablesベースの表現はより高速なレンダリングを可能にするが、幾何学的意味が明確でないため、空間的関連性を認識した編集が困難である。
この制限に対処し、各アーキテクチャのポテンシャルを最大化するために、異なるアーキテクチャ間の任意の変換を可能にする体系的な蒸留法であるプログレッシブボリューム蒸留とアクティブラーニング(PVD-AL)を提案する。
PVD-ALは、各構造を2つの部分に分解し、より浅いものからより深いボリューム表現へと徐々に蒸留を行い、レンダリングプロセスから取得した有効な情報を活用する。
さらに,3段階の能動学習技術により蒸留プロセス中に連続的なフィードバックが得られ,高い結果が得られた。
複数のベンチマークデータセットでこの方法を検証するために実証的な証拠が提示されます。
例えば、PVD-ALは、Hashtablesベースのモデルから10~20倍高速かつ0.8dB~2dB高いPSNRでMLPベースのモデルを蒸留することができる。
さらに、PVD-ALは異なる構造間の多様な特徴の融合を可能にし、複数の編集特性を持つモデルを可能にし、リアルタイム要求を満たすためのより効率的なモデルを提供する。
プロジェクトウェブサイト:http://sk-fun.fun/PVD-AL
関連論文リスト
- Data-to-Model Distillation: Data-Efficient Learning Framework [14.44010988811002]
本稿では,データ・ツー・モデル蒸留(Data-to-Model Distillation, D2M)と呼ばれる新しいフレームワークを提案する。
提案手法は,高解像度の128x128 ImageNet-1Kまで効果的にスケールアップする。
論文 参考訳(メタデータ) (2024-11-19T20:10:28Z) - FSD-BEV: Foreground Self-Distillation for Multi-view 3D Object Detection [33.225938984092274]
本稿では,分散の相違を効果的に回避するFSD方式を提案する。
また2つのポイントクラウド拡張(PCI)戦略を設計し、ポイントクラウドの幅を補う。
マルチスケール・フォアグラウンド・エンハンスメント(MSFE)モジュールを開発し,マルチスケール・フォアグラウンドの特徴を抽出・融合する。
論文 参考訳(メタデータ) (2024-07-14T09:39:44Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - AM-RADIO: Agglomerative Vision Foundation Model -- Reduce All Domains Into One [47.58919672657824]
このアプローチをAM-RADIO(Agglomerative Model -- すべてのドメインを1に還元する)と名付けます。
教師モデルより少なくとも7倍高速な新しいアーキテクチャ(E-RADIO)を開発した。
包括的なベンチマークプロセスでは、ImageNet分類、ADE20kセマンティックセグメンテーション、COCOオブジェクト検出、LLaVa-1.5フレームワークなどの下流タスクをカバーしています。
論文 参考訳(メタデータ) (2023-12-10T17:07:29Z) - ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge [63.00793292863]
ToddlerDiffusionは、RGB画像生成の複雑なタスクを、よりシンプルで解釈可能なステージに分解するための新しいアプローチである。
提案手法はToddler Diffusionと呼ばれ,それぞれが中間表現を生成する責務を担っている。
ToddlerDiffusionは、常に最先端のメソッドより優れています。
論文 参考訳(メタデータ) (2023-11-24T15:20:01Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - SimDistill: Simulated Multi-modal Distillation for BEV 3D Object
Detection [56.24700754048067]
多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難である。
モデルアーキテクチャと蒸留戦略を慎重に構築し,シミュレートされたマルチモーダル蒸留(SimDistill)法を提案する。
我々のSimDistillは、コスト効率のよいカメラのみの配置を維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習することができる。
論文 参考訳(メタデータ) (2023-03-29T16:08:59Z) - One is All: Bridging the Gap Between Neural Radiance Fields
Architectures with Progressive Volume Distillation [26.144617488670963]
ニューラル・ラジアンス・フィールド(NeRF)法は3次元シーンのコンパクトで高品質で多目的な表現として有効であることが証明されている。
様々なニューラルアーキテクチャがNeRFの中核構造を競い合っており、例えば、平らなMulti-Layer Perceptron(MLP)、スペース、低ランクテンソル、ハッシュテーブル、それらの構成などがある。
本稿では,任意の変換が可能な系統蒸留法であるプログレッシブボリューム蒸留(PVD)を提案する。
論文 参考訳(メタデータ) (2022-11-29T07:21:15Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。