論文の概要: ReFiNe: Recursive Field Networks for Cross-modal Multi-scene Representation
- arxiv url: http://arxiv.org/abs/2406.04309v1
- Date: Thu, 6 Jun 2024 17:55:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 13:30:41.724294
- Title: ReFiNe: Recursive Field Networks for Cross-modal Multi-scene Representation
- Title(参考訳): ReFiNe: クロスモーダルマルチシーン表現のための再帰的フィールドネットワーク
- Authors: Sergey Zakharov, Katherine Liu, Adrien Gaidon, Rares Ambrus,
- Abstract要約: 連続神経場として表現される複数の形状を、従来より高い精度で符号化する方法を示す。
我々は、データセット毎に1つのネットワークで、最先端のマルチシーン再構成と圧縮結果を実証する。
- 参考スコア(独自算出の注目度): 37.24514001359966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The common trade-offs of state-of-the-art methods for multi-shape representation (a single model "packing" multiple objects) involve trading modeling accuracy against memory and storage. We show how to encode multiple shapes represented as continuous neural fields with a higher degree of precision than previously possible and with low memory usage. Key to our approach is a recursive hierarchical formulation that exploits object self-similarity, leading to a highly compressed and efficient shape latent space. Thanks to the recursive formulation, our method supports spatial and global-to-local latent feature fusion without needing to initialize and maintain auxiliary data structures, while still allowing for continuous field queries to enable applications such as raytracing. In experiments on a set of diverse datasets, we provide compelling qualitative results and demonstrate state-of-the-art multi-scene reconstruction and compression results with a single network per dataset.
- Abstract(参考訳): マルチシェイプ表現のための最先端手法の共通のトレードオフ(複数のオブジェクトをパッケージ化する単一モデル)は、メモリやストレージに対するトレーディングモデリングの精度が伴う。
連続神経場として表現される複数の形状を、従来より高精度に符号化し、メモリ使用量を減らす方法を示す。
このアプローチの鍵となるのは、オブジェクトの自己相似性を活用する再帰的階層的な定式化であり、高度に圧縮され、効率のよいラテント空間をもたらす。
再帰的定式化により,提案手法は補助データ構造の初期化や維持を必要とせず,空間的かつグローバルな潜在機能融合をサポートし,連続的なフィールドクエリによりレイトレーシングなどのアプリケーションを実現することができる。
多様なデータセットの集合に関する実験では、説得力のある質的な結果を提供し、最先端のマルチシーン再構成と圧縮結果をデータセット毎に1つのネットワークで示す。
関連論文リスト
- SpaceMesh: A Continuous Representation for Learning Manifold Surface Meshes [61.110517195874074]
本稿では,ニューラルネットワークの出力として,複雑な接続性を持つ多様体多角形メッシュを直接生成する手法を提案する。
私たちの重要なイノベーションは、各メッシュで連続的な遅延接続空間を定義することです。
アプリケーションでは、このアプローチは生成モデルから高品質な出力を得るだけでなく、メッシュ修復のような挑戦的な幾何処理タスクを直接学習することを可能にする。
論文 参考訳(メタデータ) (2024-09-30T17:59:03Z) - Unity by Diversity: Improved Representation Learning in Multimodal VAEs [24.691068754720106]
ハード制約をソフト制約に置き換えることで、より優れた潜伏表現が得られることを示す。
既存の手法と比較して、学習した潜在表現の改善と欠落したデータモダリティの計算結果を示す。
論文 参考訳(メタデータ) (2024-03-08T13:29:46Z) - One for All: Toward Unified Foundation Models for Earth Vision [24.358013737755822]
現在のリモートセンシング基礎モデルは、単一のモダリティまたは特定の空間解像度範囲に特化している。
空間解像度の異なる複数のデータモダリティに対して,単一の共有トランスフォーマーバックボーンを用いるOFA-Netを導入する。
提案手法は,12の異なる下流タスクに対して評価し,有望な性能を示す。
論文 参考訳(メタデータ) (2024-01-15T08:12:51Z) - Preserving Modality Structure Improves Multi-Modal Learning [64.10085674834252]
大規模マルチモーダルデータセットによる自己教師付き学習は、人間のアノテーションに頼ることなく、意味的に意味のある埋め込みを学ぶことができる。
これらの手法は、モダリティ固有の埋め込みに存在する意味構造を無視して、ドメイン外のデータをうまく一般化するのに苦労することが多い。
共同埋め込み空間におけるモダリティ特異的な関係を保ち, 一般化性を向上させるためのセマンティック・構造保存整合性アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T20:46:48Z) - T1: Scaling Diffusion Probabilistic Fields to High-Resolution on Unified
Visual Modalities [69.16656086708291]
拡散確率場(DPF)は、距離空間上で定義された連続関数の分布をモデル化する。
本稿では,局所構造学習に着目したビューワイズサンプリングアルゴリズムによる新しいモデルを提案する。
モデルは、複数のモダリティを統一しながら、高解像度のデータを生成するためにスケールすることができる。
論文 参考訳(メタデータ) (2023-05-24T03:32:03Z) - Learning Sequential Latent Variable Models from Multimodal Time Series
Data [6.107812768939553]
マルチモーダルデータの確率的潜在状態表現を協調的に学習するための自己教師付き生成モデリングフレームワークを提案する。
提案手法が予測品質と表現品質を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2022-04-21T21:59:24Z) - Multi-Domain Adversarial Feature Generalization for Person
Re-Identification [52.835955258959785]
マルチデータセット特徴一般化ネットワーク(MMFA-AAE)を提案する。
複数のラベル付きデータセットから普遍的なドメイン不変の特徴表現を学習し、それを見えないカメラシステムに一般化することができる。
また、最先端の教師付き手法や教師なしのドメイン適応手法を大きなマージンで超えている。
論文 参考訳(メタデータ) (2020-11-25T08:03:15Z) - CellSegmenter: unsupervised representation learning and instance
segmentation of modular images [0.0]
本稿では,教師なし表現学習とインスタンスセグメンテーションタスクのための構造化された深層生成モデルとアモータイズ推論フレームワークを提案する。
提案した推論アルゴリズムは、再帰的なメカニズムなしで畳み込み並列化されている。
細胞核イメージングデータセットで得られたセグメンテーション結果を示し,高品質なセグメンテーションを実現するための手法の有効性を示した。
論文 参考訳(メタデータ) (2020-11-25T02:10:58Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。