論文の概要: RendNet: Unified 2D/3D Recognizer With Latent Space Rendering
- arxiv url: http://arxiv.org/abs/2206.10066v1
- Date: Tue, 21 Jun 2022 01:23:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 16:55:56.438600
- Title: RendNet: Unified 2D/3D Recognizer With Latent Space Rendering
- Title(参考訳): RendNet:2D/3D認識とラテンダースペース
- Authors: Ruoxi Shi, Xinyang Jiang, Caihua Shan, Yansen Wang, Dongsheng Li
- Abstract要約: VG-to-RGレンダリングプロセスは、VGとRG情報を効果的に組み合わせるのに不可欠である。
本稿では,2次元シナリオと3次元シナリオの両方の認識のための統一アーキテクチャであるRendNetを提案する。
- 参考スコア(独自算出の注目度): 18.877203720641393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vector graphics (VG) have been ubiquitous in our daily life with vast
applications in engineering, architecture, designs, etc. The VG recognition
process of most existing methods is to first render the VG into raster graphics
(RG) and then conduct recognition based on RG formats. However, this procedure
discards the structure of geometries and loses the high resolution of VG.
Recently, another category of algorithms is proposed to recognize directly from
the original VG format. But it is affected by the topological errors that can
be filtered out by RG rendering. Instead of looking at one format, it is a good
solution to utilize the formats of VG and RG together to avoid these
shortcomings. Besides, we argue that the VG-to-RG rendering process is
essential to effectively combine VG and RG information. By specifying the rules
on how to transfer VG primitives to RG pixels, the rendering process depicts
the interaction and correlation between VG and RG. As a result, we propose
RendNet, a unified architecture for recognition on both 2D and 3D scenarios,
which considers both VG/RG representations and exploits their interaction by
incorporating the VG-to-RG rasterization process. Experiments show that RendNet
can achieve state-of-the-art performance on 2D and 3D object recognition tasks
on various VG datasets.
- Abstract(参考訳): ベクトルグラフィックス(VG)は、エンジニアリング、アーキテクチャ、デザインなど、私たちの日常生活で広く使われています。
既存のほとんどの方法のVG認識プロセスは、まずVGをラスタグラフィックス(RG)にレンダリングし、次にRGフォーマットに基づいて認識を実行することである。
しかし、この手順はジオメトリーの構造を捨て、高分解能のVGを失う。
近年、元のVGフォーマットから直接認識するアルゴリズムの別のカテゴリが提案されている。
しかし、これはRGレンダリングによってフィルタリングできるトポロジ的誤差の影響を受けている。
1つのフォーマットを見るのではなく、VGとRGのフォーマットを併用してこれらの欠点を避けるのがよい方法です。
また,VGとRG情報を効果的に組み合わせるためには,VG-to-RGレンダリングプロセスが不可欠であると主張する。
VGプリミティブをRGピクセルに転送する方法のルールを指定することで、レンダリングプロセスはVGとRGの相互作用と相関を記述する。
その結果、VG/RG表現の両方を考慮し、VG-to-RGラスタ化処理を取り入れた2次元シナリオと3次元シナリオの両方の認識のための統一アーキテクチャであるRendNetを提案する。
実験により、RendNetは、様々なVGデータセット上の2Dおよび3Dオブジェクト認識タスクで最先端のパフォーマンスを達成できることが示されている。
関連論文リスト
- Memorize What Matters: Emergent Scene Decomposition from Multitraverse [54.487589469432706]
3次元ガウス写像は3次元ガウス写像をベースとしたカメラのみのオフラインマッピングフレームワークである。
3DGMは、同じ領域から複数のRGBビデオをガウスベースの環境マップに変換し、同時に2D短命なオブジェクトセグメンテーションを実行する。
We build the Mapverse benchmark, sourced from the Ithaca365 and nuPlan datasets, to evaluate our method in unsupervised 2D segmentation, 3D reconstruction, and Neural rendering。
論文 参考訳(メタデータ) (2024-05-27T14:11:17Z) - DVF: Advancing Robust and Accurate Fine-Grained Image Retrieval with Retrieval Guidelines [67.44394651662738]
細粒度画像検索(FGIR)は、一般化を維持しながら視覚的に類似した物体を識別する視覚表現を学習することである。
既存の方法は識別的特徴を生成することを提案するが、FGIRタスク自体の特異性を考えることは滅多にない。
本稿では, サブカテゴリ固有の不一致を識別し, 効果的なFGIRモデルを設計するための識別的特徴を生成するための実践的ガイドラインを提案する。
論文 参考訳(メタデータ) (2024-04-24T09:45:12Z) - Leveraging Visibility Graphs for Enhanced Arrhythmia Classification with Graph Convolutional Networks [0.11184789007828977]
心電図(ECG)によって検出される不整脈は、重大な健康リスクを引き起こす。
グラフベースの戦略の最近の進歩は不整脈検出性能の向上を目的としている。
本研究では、可視化グラフ(VG)とベクトル可視グラフ(VVG)を用いたECG信号のグラフ表現について検討する。
論文 参考訳(メタデータ) (2024-04-19T13:24:09Z) - Rethinking 3D Dense Caption and Visual Grounding in A Unified Framework through Prompt-based Localization [51.33923845954759]
3Dビジュアルグラウンド(3DVG)と3Dキャプション(3DDC)は、様々な3Dアプリケーションにおいて2つの重要なタスクである。
本稿では,これら2つの異なる,しかし密接に関連するタスクを協調的に解決する統合フレームワークである3DGCTRを提案する。
実装面では、Lightweight Caption Headを既存の3DVGネットワークに統合し、Caption Text Promptを接続として使用する。
論文 参考訳(メタデータ) (2024-04-17T04:46:27Z) - PVG: Progressive Vision Graph for Vision Recognition [25.752613030302534]
本稿では,視覚認識タスクのためのプログレッシブビジョングラフ(PVG)アーキテクチャを提案する。
PVGには3つの主要コンポーネントが含まれている: 1) プログレッシブ・セパレート・グラフ・コンストラクション(PSGC)、2) 隣ノードの情報収集と更新モジュール、3) グラフエラーリニア・ユニット(GraphLU)。
論文 参考訳(メタデータ) (2023-08-01T14:35:29Z) - Iterative Robust Visual Grounding with Masked Reference based
Centerpoint Supervision [24.90534567531536]
本稿では,Masked Reference Based Centerpoint Supervision (MRCS) を用いたIR-VG (Iterative Robust Visual Grounding) フレームワークを提案する。
提案するフレームワークは,5つの通常のVGデータセットと2つの新たに構築された堅牢なVGデータセットで評価される。
論文 参考訳(メタデータ) (2023-07-23T17:55:24Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - Vision GNN: An Image is Worth Graph of Nodes [49.3335689216822]
本稿では,画像をグラフ構造として表現し,視覚タスクのためのグラフレベルの特徴を抽出するビジョンGNN(ViG)アーキテクチャを提案する。
画像のグラフ表現に基づいて、すべてのノード間で情報を変換、交換するViGモデルを構築します。
画像認識および物体検出タスクに関する大規模な実験は、我々のViGアーキテクチャの優位性を実証している。
論文 参考訳(メタデータ) (2022-06-01T07:01:04Z) - UIGR: Unified Interactive Garment Retrieval [105.56179829647142]
対話型衣服検索(IGR)は、基準衣服画像に基づいて対象衣服画像を検索することを目的としている。
テキスト誘導衣料検索(TGR)と視覚互換衣料検索(VCR)の2つのタスクが広く研究されている。
本稿では,TGRとVCRを統合するためのUIGR(Unified Interactive Garment Retrieval)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-06T21:54:14Z) - Adaptive Visibility Graph Neural Network and It's Application in
Modulation Classification [2.3228726690478547]
本稿では,時系列を適応的にグラフにマッピングできる適応可視グラフ(AVG)アルゴリズムを提案する。
次に,無線通信分野において重要な課題である無線信号変調分類にAVGNetを採用する。
論文 参考訳(メタデータ) (2021-06-16T06:00:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。