論文の概要: RendNet: Unified 2D/3D Recognizer With Latent Space Rendering
- arxiv url: http://arxiv.org/abs/2206.10066v1
- Date: Tue, 21 Jun 2022 01:23:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 16:55:56.438600
- Title: RendNet: Unified 2D/3D Recognizer With Latent Space Rendering
- Title(参考訳): RendNet:2D/3D認識とラテンダースペース
- Authors: Ruoxi Shi, Xinyang Jiang, Caihua Shan, Yansen Wang, Dongsheng Li
- Abstract要約: VG-to-RGレンダリングプロセスは、VGとRG情報を効果的に組み合わせるのに不可欠である。
本稿では,2次元シナリオと3次元シナリオの両方の認識のための統一アーキテクチャであるRendNetを提案する。
- 参考スコア(独自算出の注目度): 18.877203720641393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vector graphics (VG) have been ubiquitous in our daily life with vast
applications in engineering, architecture, designs, etc. The VG recognition
process of most existing methods is to first render the VG into raster graphics
(RG) and then conduct recognition based on RG formats. However, this procedure
discards the structure of geometries and loses the high resolution of VG.
Recently, another category of algorithms is proposed to recognize directly from
the original VG format. But it is affected by the topological errors that can
be filtered out by RG rendering. Instead of looking at one format, it is a good
solution to utilize the formats of VG and RG together to avoid these
shortcomings. Besides, we argue that the VG-to-RG rendering process is
essential to effectively combine VG and RG information. By specifying the rules
on how to transfer VG primitives to RG pixels, the rendering process depicts
the interaction and correlation between VG and RG. As a result, we propose
RendNet, a unified architecture for recognition on both 2D and 3D scenarios,
which considers both VG/RG representations and exploits their interaction by
incorporating the VG-to-RG rasterization process. Experiments show that RendNet
can achieve state-of-the-art performance on 2D and 3D object recognition tasks
on various VG datasets.
- Abstract(参考訳): ベクトルグラフィックス(VG)は、エンジニアリング、アーキテクチャ、デザインなど、私たちの日常生活で広く使われています。
既存のほとんどの方法のVG認識プロセスは、まずVGをラスタグラフィックス(RG)にレンダリングし、次にRGフォーマットに基づいて認識を実行することである。
しかし、この手順はジオメトリーの構造を捨て、高分解能のVGを失う。
近年、元のVGフォーマットから直接認識するアルゴリズムの別のカテゴリが提案されている。
しかし、これはRGレンダリングによってフィルタリングできるトポロジ的誤差の影響を受けている。
1つのフォーマットを見るのではなく、VGとRGのフォーマットを併用してこれらの欠点を避けるのがよい方法です。
また,VGとRG情報を効果的に組み合わせるためには,VG-to-RGレンダリングプロセスが不可欠であると主張する。
VGプリミティブをRGピクセルに転送する方法のルールを指定することで、レンダリングプロセスはVGとRGの相互作用と相関を記述する。
その結果、VG/RG表現の両方を考慮し、VG-to-RGラスタ化処理を取り入れた2次元シナリオと3次元シナリオの両方の認識のための統一アーキテクチャであるRendNetを提案する。
実験により、RendNetは、様々なVGデータセット上の2Dおよび3Dオブジェクト認識タスクで最先端のパフォーマンスを達成できることが示されている。
関連論文リスト
- S^2Former-OR: Single-Stage Bimodal Transformer for Scene Graph
Generation in OR [52.964721233679406]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に、ポーズ推定とオブジェクト検出を伴う中間プロセスに依存するセマンティックシーングラフを生成する多段階学習に依存してきた。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGの単一段バイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - PVG: Progressive Vision Graph for Vision Recognition [25.752613030302534]
本稿では,視覚認識タスクのためのプログレッシブビジョングラフ(PVG)アーキテクチャを提案する。
PVGには3つの主要コンポーネントが含まれている: 1) プログレッシブ・セパレート・グラフ・コンストラクション(PSGC)、2) 隣ノードの情報収集と更新モジュール、3) グラフエラーリニア・ユニット(GraphLU)。
論文 参考訳(メタデータ) (2023-08-01T14:35:29Z) - Iterative Robust Visual Grounding with Masked Reference based
Centerpoint Supervision [24.90534567531536]
本稿では,Masked Reference Based Centerpoint Supervision (MRCS) を用いたIR-VG (Iterative Robust Visual Grounding) フレームワークを提案する。
提案するフレームワークは,5つの通常のVGデータセットと2つの新たに構築された堅牢なVGデータセットで評価される。
論文 参考訳(メタデータ) (2023-07-23T17:55:24Z) - GVCCI: Lifelong Learning of Visual Grounding for Language-Guided Robotic
Manipulation [20.041507826568093]
Grounding Vision to Ceaselessly Created Instructions (GVCCI)は、言語誘導ロボットマニピュレーション(LGRM)のための生涯学習フレームワークである。
GVCCIは、オブジェクト検出による合成命令を反復的に生成し、生成されたデータでVGモデルを訓練する。
実験の結果、GVCCIはVGを最大56.7%改善し、LGRMを最大29.4%改善することがわかった。
論文 参考訳(メタデータ) (2023-07-12T07:12:20Z) - GVP: Generative Volumetric Primitives [76.95231302205235]
本稿では,512解像度画像をリアルタイムにサンプリング・レンダリングできる最初の純3次元生成モデルである生成ボリュームプリミティブ(GVP)を提案する。
GVPは、複数のプリミティブとその空間情報を共同でモデル化し、どちらも2D畳み込みネットワークを介して効率的に生成することができる。
いくつかのデータセットの実験は、最先端技術よりも優れた効率性とGVPの3次元一貫性を示す。
論文 参考訳(メタデータ) (2023-03-31T16:50:23Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - Vision GNN: An Image is Worth Graph of Nodes [49.3335689216822]
本稿では,画像をグラフ構造として表現し,視覚タスクのためのグラフレベルの特徴を抽出するビジョンGNN(ViG)アーキテクチャを提案する。
画像のグラフ表現に基づいて、すべてのノード間で情報を変換、交換するViGモデルを構築します。
画像認識および物体検出タスクに関する大規模な実験は、我々のViGアーキテクチャの優位性を実証している。
論文 参考訳(メタデータ) (2022-06-01T07:01:04Z) - UIGR: Unified Interactive Garment Retrieval [105.56179829647142]
対話型衣服検索(IGR)は、基準衣服画像に基づいて対象衣服画像を検索することを目的としている。
テキスト誘導衣料検索(TGR)と視覚互換衣料検索(VCR)の2つのタスクが広く研究されている。
本稿では,TGRとVCRを統合するためのUIGR(Unified Interactive Garment Retrieval)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-06T21:54:14Z) - Adaptive Visibility Graph Neural Network and It's Application in
Modulation Classification [2.3228726690478547]
本稿では,時系列を適応的にグラフにマッピングできる適応可視グラフ(AVG)アルゴリズムを提案する。
次に,無線通信分野において重要な課題である無線信号変調分類にAVGNetを採用する。
論文 参考訳(メタデータ) (2021-06-16T06:00:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。