Fugu-MT 論文翻訳(概要): RendNet: Unified 2D/3D Recognizer With Latent Space Rendering

論文の概要: RendNet: Unified 2D/3D Recognizer With Latent Space Rendering

arxiv url: http://arxiv.org/abs/2206.10066v1
Date: Tue, 21 Jun 2022 01:23:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-22 16:55:56.438600
Title: RendNet: Unified 2D/3D Recognizer With Latent Space Rendering
Title（参考訳）: RendNet:2D/3D認識とラテンダースペース
Authors: Ruoxi Shi, Xinyang Jiang, Caihua Shan, Yansen Wang, Dongsheng Li
Abstract要約: VG-to-RGレンダリングプロセスは、VGとRG情報を効果的に組み合わせるのに不可欠である。本稿では,2次元シナリオと3次元シナリオの両方の認識のための統一アーキテクチャであるRendNetを提案する。
参考スコア（独自算出の注目度）: 18.877203720641393
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vector graphics (VG) have been ubiquitous in our daily life with vast applications in engineering, architecture, designs, etc. The VG recognition process of most existing methods is to first render the VG into raster graphics (RG) and then conduct recognition based on RG formats. However, this procedure discards the structure of geometries and loses the high resolution of VG. Recently, another category of algorithms is proposed to recognize directly from the original VG format. But it is affected by the topological errors that can be filtered out by RG rendering. Instead of looking at one format, it is a good solution to utilize the formats of VG and RG together to avoid these shortcomings. Besides, we argue that the VG-to-RG rendering process is essential to effectively combine VG and RG information. By specifying the rules on how to transfer VG primitives to RG pixels, the rendering process depicts the interaction and correlation between VG and RG. As a result, we propose RendNet, a unified architecture for recognition on both 2D and 3D scenarios, which considers both VG/RG representations and exploits their interaction by incorporating the VG-to-RG rasterization process. Experiments show that RendNet can achieve state-of-the-art performance on 2D and 3D object recognition tasks on various VG datasets.
Abstract（参考訳）: ベクトルグラフィックス(VG)は、エンジニアリング、アーキテクチャ、デザインなど、私たちの日常生活で広く使われています。既存のほとんどの方法のVG認識プロセスは、まずVGをラスタグラフィックス(RG)にレンダリングし、次にRGフォーマットに基づいて認識を実行することである。しかし、この手順はジオメトリーの構造を捨て、高分解能のVGを失う。近年、元のVGフォーマットから直接認識するアルゴリズムの別のカテゴリが提案されている。しかし、これはRGレンダリングによってフィルタリングできるトポロジ的誤差の影響を受けている。 1つのフォーマットを見るのではなく、VGとRGのフォーマットを併用してこれらの欠点を避けるのがよい方法です。また,VGとRG情報を効果的に組み合わせるためには,VG-to-RGレンダリングプロセスが不可欠であると主張する。 VGプリミティブをRGピクセルに転送する方法のルールを指定することで、レンダリングプロセスはVGとRGの相互作用と相関を記述する。その結果、VG/RG表現の両方を考慮し、VG-to-RGラスタ化処理を取り入れた2次元シナリオと3次元シナリオの両方の認識のための統一アーキテクチャであるRendNetを提案する。実験により、RendNetは、様々なVGデータセット上の2Dおよび3Dオブジェクト認識タスクで最先端のパフォーマンスを達成できることが示されている。

関連論文リスト

Robo-SGG: Exploiting Layout-Oriented Normalization and Restitution for Robust Scene Graph Generation [22.58434223222062]
本稿では,ロバストシーングラフ生成のための新しい手法Robo-SGG(Layout-Oriented Normalization and Restitution for Robust Scene Graph Generation)を提案する。提案するRobo-SGGモジュールは,任意のベースラインSGGモデルに容易に統合可能なプラグイン・アンド・プレイコンポーネントとして設計されている。我々は,PredCls,SGCls,SGDetタスクに対するmR@50の5.6%,8.0%,6.5%の相対的な改善を実現し,汚職シーングラフ生成ベンチマーク(VG-C,GQA)における新しい最先端性能を実現する。
論文参考訳（メタデータ） (2025-04-17T03:09:22Z)
MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing [0.08192907805418585]
本稿では,オブジェクト検出(OD)と視覚的接地(VG)を統合した統合フレームワークを提案する。本モデルは,OPT-RSVGおよびDIOR-RSVGデータセットにおいて優れた性能を示す。
論文参考訳（メタデータ） (2025-03-31T15:36:41Z)
Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。我々は、FreeGSが複雑なデータ前処理作業の負荷を回避しつつ、最先端のメソッドと互換性があることを示す。
論文参考訳（メタデータ） (2024-11-29T08:52:32Z)
AVG-LLaVA: An Efficient Large Multimodal Model with Adaptive Visual Granularity [85.44800864697464]
入力画像と命令に基づいて適切な視覚的粒度を適応的に選択できるLMMであるAVG-LLaVAを導入する。大規模な実験と分析により、AVG-LLaVAは11ベンチマークで優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-09-20T10:50:21Z)
Memorize What Matters: Emergent Scene Decomposition from Multitraverse [54.487589469432706]
3次元ガウス写像は3次元ガウス写像をベースとしたカメラのみのオフラインマッピングフレームワークである。 3DGMは、同じ領域から複数のRGBビデオをガウスベースの環境マップに変換し、同時に2D短命なオブジェクトセグメンテーションを実行する。 We build the Mapverse benchmark, sourced from the Ithaca365 and nuPlan datasets, to evaluate our method in unsupervised 2D segmentation, 3D reconstruction, and Neural rendering。
論文参考訳（メタデータ） (2024-05-27T14:11:17Z)
DVF: Advancing Robust and Accurate Fine-Grained Image Retrieval with Retrieval Guidelines [67.44394651662738]
細粒度画像検索(FGIR)は、一般化を維持しながら視覚的に類似した物体を識別する視覚表現を学習することである。既存の方法は識別的特徴を生成することを提案するが、FGIRタスク自体の特異性を考えることは滅多にない。本稿では, サブカテゴリ固有の不一致を識別し, 効果的なFGIRモデルを設計するための識別的特徴を生成するための実践的ガイドラインを提案する。
論文参考訳（メタデータ） (2024-04-24T09:45:12Z)
Leveraging Visibility Graphs for Enhanced Arrhythmia Classification with Graph Convolutional Networks [0.11184789007828977]
心電図(ECG)によって検出される不整脈は、重大な健康リスクを引き起こす。グラフベースの戦略の最近の進歩は不整脈検出性能の向上を目的としている。本研究では、可視化グラフ(VG)とベクトル可視グラフ(VVG)を用いたECG信号のグラフ表現について検討する。
論文参考訳（メタデータ） (2024-04-19T13:24:09Z)
Rethinking 3D Dense Caption and Visual Grounding in A Unified Framework through Prompt-based Localization [51.33923845954759]
3Dビジュアルグラウンド(3DVG)と3Dキャプション(3DDC)は、様々な3Dアプリケーションにおいて2つの重要なタスクである。本稿では,これら2つの異なる,しかし密接に関連するタスクを協調的に解決する統合フレームワークである3DGCTRを提案する。実装面では、Lightweight Caption Headを既存の3DVGネットワークに統合し、Caption Text Promptを接続として使用する。
論文参考訳（メタデータ） (2024-04-17T04:46:27Z)
PVG: Progressive Vision Graph for Vision Recognition [25.752613030302534]
本稿では,視覚認識タスクのためのプログレッシブビジョングラフ(PVG)アーキテクチャを提案する。 PVGには3つの主要コンポーネントが含まれている: 1) プログレッシブ・セパレート・グラフ・コンストラクション(PSGC)、2) 隣ノードの情報収集と更新モジュール、3) グラフエラーリニア・ユニット(GraphLU)。
論文参考訳（メタデータ） (2023-08-01T14:35:29Z)
Iterative Robust Visual Grounding with Masked Reference based Centerpoint Supervision [24.90534567531536]
本稿では,Masked Reference Based Centerpoint Supervision (MRCS) を用いたIR-VG (Iterative Robust Visual Grounding) フレームワークを提案する。提案するフレームワークは,5つの通常のVGデータセットと2つの新たに構築された堅牢なVGデータセットで評価される。
論文参考訳（メタデータ） (2023-07-23T17:55:24Z)
CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文参考訳（メタデータ） (2022-10-09T13:38:48Z)
Vision GNN: An Image is Worth Graph of Nodes [49.3335689216822]
本稿では,画像をグラフ構造として表現し,視覚タスクのためのグラフレベルの特徴を抽出するビジョンGNN(ViG)アーキテクチャを提案する。画像のグラフ表現に基づいて、すべてのノード間で情報を変換、交換するViGモデルを構築します。画像認識および物体検出タスクに関する大規模な実験は、我々のViGアーキテクチャの優位性を実証している。
論文参考訳（メタデータ） (2022-06-01T07:01:04Z)
UIGR: Unified Interactive Garment Retrieval [105.56179829647142]
対話型衣服検索(IGR)は、基準衣服画像に基づいて対象衣服画像を検索することを目的としている。テキスト誘導衣料検索(TGR)と視覚互換衣料検索(VCR)の2つのタスクが広く研究されている。本稿では,TGRとVCRを統合するためのUIGR(Unified Interactive Garment Retrieval)フレームワークを提案する。
論文参考訳（メタデータ） (2022-04-06T21:54:14Z)
Adaptive Visibility Graph Neural Network and It's Application in Modulation Classification [2.3228726690478547]
本稿では,時系列を適応的にグラフにマッピングできる適応可視グラフ(AVG)アルゴリズムを提案する。次に,無線通信分野において重要な課題である無線信号変調分類にAVGNetを採用する。
論文参考訳（メタデータ） (2021-06-16T06:00:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。