Fugu-MT 論文翻訳(概要): Parallel Vertex Diffusion for Unified Visual Grounding

論文の概要: Parallel Vertex Diffusion for Unified Visual Grounding

arxiv url: http://arxiv.org/abs/2303.07216v2
Date: Tue, 14 Mar 2023 07:48:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-15 11:11:33.125628
Title: Parallel Vertex Diffusion for Unified Visual Grounding
Title（参考訳）: 視界統一のための平行渦拡散
Authors: Zesen Cheng and Kehan Li and Peng Jin and Xiangyang Ji and Li Yuan and Chang Liu and Jie Chen
Abstract要約: 統一ビジュアルグラウンドティングは、タスク固有の設計の少ないマルチタスクデータを活用するためのシンプルで汎用的な技術経路を追求する。ほとんどの先進的な手法は、通常、検出とセグメンテーションをモデル化するためのシーケンスとしてボックスとマスクを提示する。
参考スコア（独自算出の注目度）: 38.94276071029081
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Unified visual grounding pursues a simple and generic technical route to leverage multi-task data with less task-specific design. The most advanced methods typically present boxes and masks as vertex sequences to model referring detection and segmentation as an autoregressive sequential vertex generation paradigm. However, generating high-dimensional vertex sequences sequentially is error-prone because the upstream of the sequence remains static and cannot be refined based on downstream vertex information, even if there is a significant location gap. Besides, with limited vertexes, the inferior fitting of objects with complex contours restricts the performance upper bound. To deal with this dilemma, we propose a parallel vertex generation paradigm for superior high-dimension scalability with a diffusion model by simply modifying the noise dimension. An intuitive materialization of our paradigm is Parallel Vertex Diffusion (PVD) to directly set vertex coordinates as the generation target and use a diffusion model to train and infer. We claim that it has two flaws: (1) unnormalized coordinate caused a high variance of loss value; (2) the original training objective of PVD only considers point consistency but ignores geometry consistency. To solve the first flaw, Center Anchor Mechanism (CAM) is designed to convert coordinates as normalized offset values to stabilize the training loss value. For the second flaw, Angle summation loss (ASL) is designed to constrain the geometry difference of prediction and ground truth vertexes for geometry-level consistency. Empirical results show that our PVD achieves state-of-the-art in both referring detection and segmentation, and our paradigm is more scalable and efficient than sequential vertex generation with high-dimension data.
Abstract（参考訳）: 統一ビジュアルグラウンドティングは、タスク固有の設計の少ないマルチタスクデータを活用するためのシンプルで汎用的な技術経路を追求する。最も先進的な手法は、自己回帰的な逐次的頂点生成パラダイムとしてのモデル参照検出とセグメンテーションのための頂点シーケンスとしてボックスとマスクを表示する。しかし,高次元頂点列を逐次生成することは,上流が静的なままであり,重要な位置ギャップがあるとしても下流頂点情報では洗練できないため,誤りやすい。さらに、頂点が限られているため、複雑な輪郭を持つ物体の劣る適合性は、性能上界を制限する。このジレンマに対処するため,ノイズ次元を簡易に変化させることで,拡散モデルによる高次元スケーラビリティを実現するための並列頂点生成パラダイムを提案する。我々のパラダイムの直感的な実体化は、頂点座標を生成対象として直接設定し、拡散モデルを用いてトレーニングと推論を行う並列頂点拡散(PVD)である。 1) 正規化されていない座標は損失値のばらつきを生じさせ,(2) PVD の本来の訓練目的は点整合性のみを考慮しつつ幾何整合性を無視することである。最初の欠陥を解決するため、CAM(Central Anchor Mechanism)は、座標を正規化されたオフセット値として変換してトレーニング損失値を安定化するように設計されている。第2の欠点として、アングル和損失(ASL)は、幾何レベルの整合性に対する予測と基底真理頂点の幾何学的差を制限するように設計されている。実験の結果,PVDは検出とセグメンテーションの両面において最先端を実現しており,そのパラダイムは高次元データを用いた逐次頂点生成よりもスケーラブルで効率的であることがわかった。

関連論文リスト

Lotus-2: Advancing Geometric Dense Prediction with Powerful Image Generative Model [32.831576387973875]
安定, 高精度, 微粒な幾何的密度予測のための2段階決定的フレームワークを提案する。特に、第1段階では、コア予測器は、クリーンデータ目的の単一ステップ決定論的定式化を採用する。第2段階では、ディテールシャープナーは、コア予測器によって定義される多様体内で制約付き多段階整流補正を行う。
論文参考訳（メタデータ） (2025-11-30T18:57:25Z)
Dense Semantic Matching with VGGT Prior [49.42199006453071]
本稿では,VGGTの本質的な強みを,初期の特徴段階を再利用し,後続の特徴段階を微調整し,双方向対応のための意味的頭部を追加することによって維持するアプローチを提案する。提案手法は, 従来のベースラインよりも優れた幾何認識, 整合性, および多様体保存を実現する。
論文参考訳（メタデータ） (2025-09-25T14:56:11Z)
Preconditioned Deformation Grids [41.79220966392968]
非構造点雲列から直接コヒーレントな変形場を推定する新しい手法であるプレコンディショニング変形格子を導入する。提案手法は,最先端技術と比較して,特に長いシーケンスにおいて優れた結果が得られる。
論文参考訳（メタデータ） (2025-09-22T17:59:55Z)
Adaptive Point-Prompt Tuning: Fine-Tuning Heterogeneous Foundation Models for 3D Point Cloud Analysis [51.37795317716487]
本稿では,パラメータの少ない事前学習モデルを微調整するAdaptive Point-Prompt Tuning (APPT)法を提案する。局所幾何学を集約することで原点雲を点埋め込みに変換し、空間的特徴を捉える。任意のモダリティのソース領域から3Dへの自己アテンションを校正するために,重みを点埋め込みモジュールと共有するプロンプトジェネレータを導入する。
論文参考訳（メタデータ） (2025-08-30T06:02:21Z)
3-Dimensional CryoEM Pose Estimation and Shift Correction Pipeline [2.009945677846956]
正確なポーズ推定とシフト補正は、非常に低いSNRが3次元再構成の忠実性に直接影響を及ぼすため、Cryo-EMの鍵となる課題である。本稿では,多次元スケーリング(MDS)手法を頑健に活用したCryo-EMにおけるポーズ推定手法を提案し,各粒子の3次元回転行列を2面角対から推定する。
論文参考訳（メタデータ） (2025-07-20T11:46:17Z)
GMapLatent: Geometric Mapping in Latent Space [51.317738404571514]
エンコーダ-デコーダAIアーキテクチャに基づくドメイン間の生成モデルは、現実的な画像の生成に大きな注目を集めている。幾何学的マッピングに基づく正準潜在空間表現を導入し、領域間潜在空間を厳密かつ正確に整列する。グレースケールおよびカラー画像の実験は、GMapLatentの有効性、有効性および適用性を検証する。
論文参考訳（メタデータ） (2025-03-30T12:02:36Z)
Fast Solvers for Discrete Diffusion Models: Theory and Applications of High-Order Algorithms [31.42317398879432]
現在の推論アプローチは主に、正確なシミュレーションと$tau$-leapingのような近似メソッドの2つのカテゴリに分類される。本研究では,高次数値推論スキームの最初の拡張を離散拡散モデルに合わせることで,後者のカテゴリを推し進める。提案手法を厳密に解析し,KL分散における$theta$-trapezoidal法の2次精度を確立する。
論文参考訳（メタデータ） (2025-02-01T00:25:21Z)
Bidirectional Regression for Monocular 6DoF Head Pose Estimation and Reference System Alignment [23.65735794927899]
TRGv2は、我々のTranslation, Rotation, and Geometry (TRG)ネットワークの軽量拡張である。顔のランドマークと6DoFは、ランドマーク・ツー・イメージ・プロジェクションで反復的なリファインメントループを通してポーズを推測する。アウト・オブ・ディストリビューションデータへの一般化を改善するため、TRGv2は変換を直接予測するのではなく、補正パラメータを回帰する。不整合性中心定義によるデータセット間評価において,これまで見過ごされていたバイアス源を同定する。
論文参考訳（メタデータ） (2024-07-19T09:05:49Z)
Dynamic Position Transformation and Boundary Refinement Network for Left Atrial Segmentation [17.09918110723713]
左心房細動は不整脈(心房細動)の診断において重要な手法である。 LAセグメンテーションの現在のほとんどの方法は、入力データがオブジェクト指向のセンタートリミングによって取得されると厳密に仮定している。本稿では,これらの問題に対処するための新しい動的位置変換と境界改善ネットワーク(DPBNet)を提案する。
論文参考訳（メタデータ） (2024-07-07T22:09:35Z)
Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文参考訳（メタデータ） (2024-06-09T05:57:40Z)
Implicit Bias and Fast Convergence Rates for Self-attention [30.08303212679308]
トランスフォーマーのコアメカニズムであるセルフアテンションは、従来のニューラルネットワークと区別し、その優れたパフォーマンスを駆動する。固定線形復号器をバイナリに固定した自己アテンション層をトレーニングする際の勾配降下(GD)の暗黙バイアスについて検討した。 W_t$ から $W_mm$ に対する最初の有限時間収束率と、注意写像のスペーサー化率を提供する。
論文参考訳（メタデータ） (2024-02-08T15:15:09Z)
Enhanced Laser-Scan Matching with Online Error Estimation for Highway and Tunnel Driving [0.0]
Lidarデータは、自動運転車やモバイルロボットプラットフォームのナビゲーションのためのポイントクラウドを生成するために使用できる。本稿では,2つの新しい改良点を提供するスキャンマッチングアルゴリズムであるIterative Closest Ellipsoidal Transform (ICET)を提案する。
論文参考訳（メタデータ） (2022-07-29T13:42:32Z)
Learned Vertex Descent: A New Direction for 3D Human Model Fitting [64.04726230507258]
画像やスキャンに適合する3次元人体モデルのための新しい最適化手法を提案する。われわれのアプローチは、非常に異なる体型を持つ服を着た人々の基盤となる身体を捉えることができ、最先端技術と比べて大きな改善を達成できる。 LVDはまた、人間と手の3次元モデル適合にも適用でき、よりシンプルで高速な方法でSOTAに大きな改善が示される。
論文参考訳（メタデータ） (2022-05-12T17:55:51Z)
E2EC: An End-to-End Contour-based Method for High-Quality High-Speed Instance Segmentation [4.74225248496056]
高品質なインスタンスセグメンテーションのための新しい輪郭法であるE2ECを導入する。 E2ECは、NVIDIA A6000 GPU上の512*512イメージに対して、36fpsの推論速度を持つリアルタイムアプリケーションでの使用に効率的である。
論文参考訳（メタデータ） (2022-03-08T13:36:23Z)
Homography Decomposition Networks for Planar Object Tracking [11.558401177707312]
平面オブジェクトトラッキングは、ロボット工学、ビジュアルサーボ、ビジュアルSLAMといったAIアプリケーションにおいて重要な役割を果たす。本稿では, ホログラフィ変換を2つのグループに分解することで, 条件数を大幅に削減し, 安定化する新しいホモグラフィ分解ネットワークを提案する。
論文参考訳（メタデータ） (2021-12-15T06:13:32Z)
Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文参考訳（メタデータ） (2021-03-04T15:34:43Z)
Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文参考訳（メタデータ） (2020-06-16T13:41:54Z)
Dense Non-Rigid Structure from Motion: A Manifold Viewpoint [162.88686222340962]
Non-Rigid Structure-from-Motion (NRSfM) 問題は、複数のフレームにまたがる2次元特徴対応から変形物体の3次元形状を復元することを目的としている。提案手法は,ノイズに対する精度,スケーラビリティ,堅牢性を大幅に向上させる。
論文参考訳（メタデータ） (2020-06-15T09:15:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。