論文の概要: Parallel Vertex Diffusion for Unified Visual Grounding
- arxiv url: http://arxiv.org/abs/2303.07216v2
- Date: Tue, 14 Mar 2023 07:48:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 11:11:33.125628
- Title: Parallel Vertex Diffusion for Unified Visual Grounding
- Title(参考訳): 視界統一のための平行渦拡散
- Authors: Zesen Cheng and Kehan Li and Peng Jin and Xiangyang Ji and Li Yuan and
Chang Liu and Jie Chen
- Abstract要約: 統一ビジュアルグラウンドティングは、タスク固有の設計の少ないマルチタスクデータを活用するためのシンプルで汎用的な技術経路を追求する。
ほとんどの先進的な手法は、通常、検出とセグメンテーションをモデル化するためのシーケンスとしてボックスとマスクを提示する。
- 参考スコア(独自算出の注目度): 38.94276071029081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified visual grounding pursues a simple and generic technical route to
leverage multi-task data with less task-specific design. The most advanced
methods typically present boxes and masks as vertex sequences to model
referring detection and segmentation as an autoregressive sequential vertex
generation paradigm. However, generating high-dimensional vertex sequences
sequentially is error-prone because the upstream of the sequence remains static
and cannot be refined based on downstream vertex information, even if there is
a significant location gap. Besides, with limited vertexes, the inferior
fitting of objects with complex contours restricts the performance upper bound.
To deal with this dilemma, we propose a parallel vertex generation paradigm for
superior high-dimension scalability with a diffusion model by simply modifying
the noise dimension. An intuitive materialization of our paradigm is Parallel
Vertex Diffusion (PVD) to directly set vertex coordinates as the generation
target and use a diffusion model to train and infer. We claim that it has two
flaws: (1) unnormalized coordinate caused a high variance of loss value; (2)
the original training objective of PVD only considers point consistency but
ignores geometry consistency. To solve the first flaw, Center Anchor Mechanism
(CAM) is designed to convert coordinates as normalized offset values to
stabilize the training loss value. For the second flaw, Angle summation loss
(ASL) is designed to constrain the geometry difference of prediction and ground
truth vertexes for geometry-level consistency. Empirical results show that our
PVD achieves state-of-the-art in both referring detection and segmentation, and
our paradigm is more scalable and efficient than sequential vertex generation
with high-dimension data.
- Abstract(参考訳): 統一ビジュアルグラウンドティングは、タスク固有の設計の少ないマルチタスクデータを活用するためのシンプルで汎用的な技術経路を追求する。
最も先進的な手法は、自己回帰的な逐次的頂点生成パラダイムとしてのモデル参照検出とセグメンテーションのための頂点シーケンスとしてボックスとマスクを表示する。
しかし,高次元頂点列を逐次生成することは,上流が静的なままであり,重要な位置ギャップがあるとしても下流頂点情報では洗練できないため,誤りやすい。
さらに、頂点が限られているため、複雑な輪郭を持つ物体の劣る適合性は、性能上界を制限する。
このジレンマに対処するため,ノイズ次元を簡易に変化させることで,拡散モデルによる高次元スケーラビリティを実現するための並列頂点生成パラダイムを提案する。
我々のパラダイムの直感的な実体化は、頂点座標を生成対象として直接設定し、拡散モデルを用いてトレーニングと推論を行う並列頂点拡散(PVD)である。
1) 正規化されていない座標は損失値のばらつきを生じさせ,(2) PVD の本来の訓練目的は点整合性のみを考慮しつつ幾何整合性を無視することである。
最初の欠陥を解決するため、CAM(Central Anchor Mechanism)は、座標を正規化されたオフセット値として変換してトレーニング損失値を安定化するように設計されている。
第2の欠点として、アングル和損失(ASL)は、幾何レベルの整合性に対する予測と基底真理頂点の幾何学的差を制限するように設計されている。
実験の結果,PVDは検出とセグメンテーションの両面において最先端を実現しており,そのパラダイムは高次元データを用いた逐次頂点生成よりもスケーラブルで効率的であることがわかった。
関連論文リスト
- Dynamic Position Transformation and Boundary Refinement Network for Left Atrial Segmentation [17.09918110723713]
左心房細動は不整脈(心房細動)の診断において重要な手法である。
LAセグメンテーションの現在のほとんどの方法は、入力データがオブジェクト指向のセンタートリミングによって取得されると厳密に仮定している。
本稿では,これらの問題に対処するための新しい動的位置変換と境界改善ネットワーク(DPBNet)を提案する。
論文 参考訳(メタデータ) (2024-07-07T22:09:35Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - Implicit Bias and Fast Convergence Rates for Self-attention [30.08303212679308]
トランスフォーマーのコアメカニズムであるセルフアテンションは、従来のニューラルネットワークと区別し、その優れたパフォーマンスを駆動する。
固定線形復号器をバイナリに固定した自己アテンション層をトレーニングする際の勾配降下(GD)の暗黙バイアスについて検討した。
W_t$ から $W_mm$ に対する最初の有限時間収束率と、注意写像のスペーサー化率を提供する。
論文 参考訳(メタデータ) (2024-02-08T15:15:09Z) - Enhanced Laser-Scan Matching with Online Error Estimation for Highway
and Tunnel Driving [0.0]
Lidarデータは、自動運転車やモバイルロボットプラットフォームのナビゲーションのためのポイントクラウドを生成するために使用できる。
本稿では,2つの新しい改良点を提供するスキャンマッチングアルゴリズムであるIterative Closest Ellipsoidal Transform (ICET)を提案する。
論文 参考訳(メタデータ) (2022-07-29T13:42:32Z) - Learned Vertex Descent: A New Direction for 3D Human Model Fitting [64.04726230507258]
画像やスキャンに適合する3次元人体モデルのための新しい最適化手法を提案する。
われわれのアプローチは、非常に異なる体型を持つ服を着た人々の基盤となる身体を捉えることができ、最先端技術と比べて大きな改善を達成できる。
LVDはまた、人間と手の3次元モデル適合にも適用でき、よりシンプルで高速な方法でSOTAに大きな改善が示される。
論文 参考訳(メタデータ) (2022-05-12T17:55:51Z) - E2EC: An End-to-End Contour-based Method for High-Quality High-Speed
Instance Segmentation [4.74225248496056]
高品質なインスタンスセグメンテーションのための新しい輪郭法であるE2ECを導入する。
E2ECは、NVIDIA A6000 GPU上の512*512イメージに対して、36fpsの推論速度を持つリアルタイムアプリケーションでの使用に効率的である。
論文 参考訳(メタデータ) (2022-03-08T13:36:23Z) - Homography Decomposition Networks for Planar Object Tracking [11.558401177707312]
平面オブジェクトトラッキングは、ロボット工学、ビジュアルサーボ、ビジュアルSLAMといったAIアプリケーションにおいて重要な役割を果たす。
本稿では, ホログラフィ変換を2つのグループに分解することで, 条件数を大幅に削減し, 安定化する新しいホモグラフィ分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-12-15T06:13:32Z) - Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。
また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-03-04T15:34:43Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Dense Non-Rigid Structure from Motion: A Manifold Viewpoint [162.88686222340962]
Non-Rigid Structure-from-Motion (NRSfM) 問題は、複数のフレームにまたがる2次元特徴対応から変形物体の3次元形状を復元することを目的としている。
提案手法は,ノイズに対する精度,スケーラビリティ,堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2020-06-15T09:15:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。