論文の概要: Understanding Pure CLIP Guidance for Voxel Grid NeRF Models
- arxiv url: http://arxiv.org/abs/2209.15172v1
- Date: Fri, 30 Sep 2022 01:47:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 15:16:19.644523
- Title: Understanding Pure CLIP Guidance for Voxel Grid NeRF Models
- Title(参考訳): Voxel Grid NeRFモデルに対する純CLIPガイダンスの理解
- Authors: Han-Hung Lee, Angel X. Chang
- Abstract要約: 本研究は, 画像ベースの拡張により, 対角線生成の問題が防止され, 生成結果がどう影響するかを示す。
我々は、ニューラルネットワークが正規化の付加層を提供することを示すために、暗黙のボクセルグリッドモデルを実装し、結果として生成されたオブジェクトの幾何学的構造とコヒーレンシーが向上することを示す。
- 参考スコア(独自算出の注目度): 15.570827675034637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore the task of text to 3D object generation using CLIP. Specifically,
we use CLIP for guidance without access to any datasets, a setting we refer to
as pure CLIP guidance. While prior work has adopted this setting, there is no
systematic study of mechanics for preventing adversarial generations within
CLIP. We illustrate how different image-based augmentations prevent the
adversarial generation problem, and how the generated results are impacted. We
test different CLIP model architectures and show that ensembling different
models for guidance can prevent adversarial generations within bigger models
and generate sharper results. Furthermore, we implement an implicit voxel grid
model to show how neural networks provide an additional layer of
regularization, resulting in better geometrical structure and coherency of
generated objects. Compared to prior work, we achieve more coherent results
with higher memory efficiency and faster training speeds.
- Abstract(参考訳): CLIPを用いてテキストから3次元オブジェクト生成のタスクを探索する。
具体的には、データセットにアクセスせずにガイダンスにCLIPを使用します。
以前の研究ではこの設定が採用されているが、CLIP内の敵世代を予防するためのメカニズムの体系的な研究はない。
本稿では,画像に基づく拡張が敵生成の問題をいかに防ぎ,結果にどのように影響するかを説明する。
異なるCLIPモデルアーキテクチャをテストし、ガイダンスのための異なるモデルをアンサンブルすることで、より大きなモデル内の敵世代を防止し、よりシャープな結果が得られることを示す。
さらに,暗黙のボクセル格子モデルを実装し,ニューラルネットワークが新たな正規化層をどのように提供し,結果として生成するオブジェクトの幾何学的構造と一貫性が向上するかを示す。
従来の作業と比較すると,メモリ効率が向上し,トレーニング速度の高速化が図られた。
関連論文リスト
- Distilling Knowledge from Text-to-Image Generative Models Improves Visio-Linguistic Reasoning in CLIP [57.53087077735303]
本稿では,CLIPの構成的視覚言語推論を強化する軽量で効率的な蒸留法であるSDS-CLIPを紹介する。
提案手法は,Stable-Diffusionのような大規模テキスト・画像生成モデルから抽出した蒸留目標を用いた微細構造CLIPである。
挑戦的なWinogroundベンチマークでは、SDS-CLIPは様々なCLIPモデルの視覚言語性能を7%向上させ、AROデータセットでは、パフォーマンスを最大3%向上させた。
論文 参考訳(メタデータ) (2023-07-18T13:10:11Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Learning Versatile 3D Shape Generation with Improved AR Models [91.87115744375052]
自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。
本稿では3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。
論文 参考訳(メタデータ) (2023-03-26T12:03:18Z) - DepGraph: Towards Any Structural Pruning [68.40343338847664]
我々は、CNN、RNN、GNN、Transformersのような任意のアーキテクチャの一般的な構造解析について研究する。
本稿では,階層間の依存関係を明示的にモデル化し,包括的にグループ化してプルーニングを行う汎用かつ完全自動な手法であるemphDependency Graph(DepGraph)を提案する。
本研究では,画像用ResNe(X)t,DenseNet,MobileNet,Vision Transformer,グラフ用GAT,3Dポイントクラウド用DGCNN,言語用LSTMなど,さまざまなアーキテクチャやタスクに関する手法を広範囲に評価し,言語用LSTMと並行して示す。
論文 参考訳(メタデータ) (2023-01-30T14:02:33Z) - Self-supervised Semi-implicit Graph Variational Auto-encoders with
Masking [18.950919307926824]
自己教師付き変分グラフオートエンコーダ(VGAE)のファミリに基づくSeeeGeraモデルを提案する。
SeeGeraは、エンコーダのノードと機能の両方を同時に埋め込み、デコーダのリンクと機能の両方を再構築する。
われわれは、SeeGeraと9つの最先端ライバルを比較した広範な実験を行っている。
論文 参考訳(メタデータ) (2023-01-29T15:00:43Z) - Robust Graph Representation Learning via Predictive Coding [46.22695915912123]
予測符号化は、当初脳の情報処理をモデル化するために開発されたメッセージパッシングフレームワークである。
本研究では,予測符号化のメッセージパス規則に依存するモデルを構築する。
提案したモデルは,帰納的タスクと帰納的タスクの両方において,標準的なモデルに匹敵する性能を示す。
論文 参考訳(メタデータ) (2022-12-09T03:58:22Z) - Don't Stop Learning: Towards Continual Learning for the CLIP Model [21.212839450030838]
Contrastive Language-Image Pre-Training(CLIP)モデルは、最近提案された大規模プレトレインモデルである。
本研究は,CLIPモデルの連続学習問題に関する体系的研究を行う。
筆者らは,CLIPモデルの忘れ問題を軽減するために,VR-LwF (Replayed Vocabulary) を用いた学習学習という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T13:03:14Z) - Self-Supervised Class Incremental Learning [51.62542103481908]
既存のクラスインクリメンタルラーニング(CIL)手法は、データラベルに敏感な教師付き分類フレームワークに基づいている。
新しいクラスデータに基づいて更新する場合、それらは破滅的な忘れがちである。
本稿では,SSCILにおける自己指導型表現学習のパフォーマンスを初めて考察する。
論文 参考訳(メタデータ) (2021-11-18T06:58:19Z) - Evaluating CLIP: Towards Characterization of Broader Capabilities and
Downstream Implications [8.15254368157658]
私たちはCLIPを分析し、そのようなモデルがもたらす課題をいくつか強調します。
CLIPは、従来のコンピュータビジョンシステムに見られるバイアスを継承できる。
これらの結果は、成長する仕事の体に「ベター」モデルの概念を変えることを要求する証拠となる。
論文 参考訳(メタデータ) (2021-08-05T19:05:57Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。