論文の概要: Analogy-Forming Transformers for Few-Shot 3D Parsing
- arxiv url: http://arxiv.org/abs/2304.14382v1
- Date: Thu, 27 Apr 2023 17:50:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 12:03:43.237236
- Title: Analogy-Forming Transformers for Few-Shot 3D Parsing
- Title(参考訳): 数発3d解析のためのアナロジーフォーミングトランスフォーマー
- Authors: Nikolaos Gkanatsios, Mayank Singh, Zhaoyuan Fang, Shubham Tulsiani,
Katerina Fragkiadaki
- Abstract要約: Analogical Networksはドメイン知識を明示的にエンコードするモデルである。
モデルでは3次元オブジェクトシーンを類似の推論で分割する。
我々はAnalogical Networksが最先端の3Dセグメンテーション変換器と競合していることを示す。
- 参考スコア(独自算出の注目度): 35.94683549006595
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present Analogical Networks, a model that encodes domain knowledge
explicitly, in a collection of structured labelled 3D scenes, in addition to
implicitly, as model parameters, and segments 3D object scenes with analogical
reasoning: instead of mapping a scene to part segments directly, our model
first retrieves related scenes from memory and their corresponding part
structures, and then predicts analogous part structures for the input scene,
via an end-to-end learnable modulation mechanism. By conditioning on more than
one retrieved memories, compositions of structures are predicted, that mix and
match parts across the retrieved memories. One-shot, few-shot or many-shot
learning are treated uniformly in Analogical Networks, by conditioning on the
appropriate set of memories, whether taken from a single, few or many memory
exemplars, and inferring analogous parses. We show Analogical Networks are
competitive with state-of-the-art 3D segmentation transformers in many-shot
settings, and outperform them, as well as existing paradigms of meta-learning
and few-shot learning, in few-shot settings. Analogical Networks successfully
segment instances of novel object categories simply by expanding their memory,
without any weight updates. Our code and models are publicly available in the
project webpage: http://analogicalnets.github.io/.
- Abstract(参考訳): ドメインの知識を明示的に符号化するモデルであるAnalogical Networksを、モデルパラメータとして暗黙的に、3次元オブジェクトシーンを類似した推論で、3次元オブジェクトシーンを暗黙的に表示し、その部分セグメントに直接マッピングするのではなく、まず、メモリとその対応する部分構造から関連シーンを検索し、入力シーンの類似部分構造をエンドツーエンドの学習可能な変調機構を介して予測する。
複数の記憶を条件付けすることで、構造体の構成が予測され、その記憶をミックスして一致させる。
一発、一発、二発、多発の学習は、単一、少数、または多数の記憶例から取り出した記憶の適切なセットを条件付けし、類似のパースを推論することによって、アナログネットワークにおいて一様に扱われる。
アナロジカルネットワークは、最先端の3Dセグメンテーショントランスフォーマーと多くのショット設定で競合し、メタラーニングや少ショットラーニングといった既存のパラダイムを数ショット設定で上回ります。
類似ネットワークは、新しいオブジェクトカテゴリのインスタンスを単にメモリを拡張するだけで、重み付け更新なしにセグメント化することに成功している。
私たちのコードとモデルはプロジェクトのWebページで公開されている。
関連論文リスト
- Part123: Part-aware 3D Reconstruction from a Single-view Image [54.589723979757515]
Part123は、一視点画像から部分認識された3D再構成のための新しいフレームワークである。
ニューラルレンダリングフレームワークにコントラスト学習を導入し、部分認識機能空間を学習する。
クラスタリングに基づくアルゴリズムも開発され、再構成されたモデルから3次元部分分割結果を自動的に導出する。
論文 参考訳(メタデータ) (2024-05-27T07:10:21Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - Few-shot Single-view 3D Reconstruction with Memory Prior Contrastive
Network [18.000566656946475]
数ショット学習に基づく新しいカテゴリーの3次元再構成が現実の応用にアピールしている。
本稿では,記憶優先コントラストネットワーク (MPCN) を提案する。
論文 参考訳(メタデータ) (2022-07-30T10:49:39Z) - RelTR: Relation Transformer for Scene Graph Generation [34.1193503312965]
エンコーダ-デコーダアーキテクチャを用いたシーングラフ生成モデルRelTRを提案する。
モデルは、異なる種類の注意機構を用いて、固定サイズの三重項の主観的対象を推定する。
Visual GenomeとOpen Images V6データセットの実験は、我々のモデルの優れた性能と高速な推論を実証している。
論文 参考訳(メタデータ) (2022-01-27T11:53:41Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z) - Video Object Segmentation with Episodic Graph Memory Networks [198.74780033475724]
セグメント化モデルを更新する学習」という新しいアイデアに対処するために,グラフメモリネットワークが開発された。
我々は、完全に連結されたグラフとして構成されたエピソードメモリネットワークを利用して、フレームをノードとして保存し、エッジによってフレーム間の相関をキャプチャする。
提案したグラフメモリネットワークは、一発とゼロショットの両方のビデオオブジェクトセグメンテーションタスクをうまく一般化できる、巧妙だが原則化されたフレームワークを提供する。
論文 参考訳(メタデータ) (2020-07-14T13:19:19Z) - RPM-Net: Recurrent Prediction of Motion and Parts from Point Cloud [19.46077164219437]
RPM-Netは同時に可動部を推測し、その動きを1つの、未分節でおそらく部分的な3D点雲の形から幻覚させる。
様々な部位の可動性を示す3次元物体の同時動作と実物スキャンによる部分予測の結果を示す。
論文 参考訳(メタデータ) (2020-06-26T08:51:11Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。