論文の概要: GOT-Edit: Geometry-Aware Generic Object Tracking via Online Model Editing
- arxiv url: http://arxiv.org/abs/2602.08550v1
- Date: Mon, 09 Feb 2026 11:50:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.203171
- Title: GOT-Edit: Geometry-Aware Generic Object Tracking via Online Model Editing
- Title(参考訳): GOT-Edit:オンラインモデル編集による幾何学的ジェネリックオブジェクト追跡
- Authors: Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin,
- Abstract要約: GOT-Editは2次元ビデオストリームからジェネリックオブジェクトトラッカーにジオメトリ認識キューを統合するオンライン・モダリティ・モデル編集手法である。
提案手法では,事前学習したビジュアルジオメトリグラウンドドトランスの機能を活用し,少数の2次元画像からの幾何的キュー推論を可能にする。
- 参考スコア(独自算出の注目度): 27.70912792107499
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human perception for effective object tracking in a 2D video stream arises from the implicit use of prior 3D knowledge combined with semantic reasoning. In contrast, most generic object tracking (GOT) methods primarily rely on 2D features of the target and its surroundings while neglecting 3D geometric cues, which makes them susceptible to partial occlusion, distractors, and variations in geometry and appearance. To address this limitation, we introduce GOT-Edit, an online cross-modality model editing approach that integrates geometry-aware cues into a generic object tracker from a 2D video stream. Our approach leverages features from a pre-trained Visual Geometry Grounded Transformer to enable geometric cue inference from only a few 2D images. To tackle the challenge of seamlessly combining geometry and semantics, GOT-Edit performs online model editing with null-space constrained updates that incorporate geometric information while preserving semantic discrimination, yielding consistently better performance across diverse scenarios. Extensive experiments on multiple GOT benchmarks demonstrate that GOT-Edit achieves superior robustness and accuracy, particularly under occlusion and clutter, establishing a new paradigm for combining 2D semantics with 3D geometric reasoning for generic object tracking.
- Abstract(参考訳): 2次元ビデオストリームにおける効果的な物体追跡のための人間の知覚は、事前の3次元知識と意味論的推論の暗黙的な使用から生じる。
対照的に、ほとんどの汎用オブジェクト追跡(GOT)法は、主に3次元幾何学的手がかりを無視しながら、ターゲットとその周囲の2次元特徴に依存している。
この制限に対処するため、GOT-Editは2Dビデオストリームからジェネリックオブジェクトトラッカーにジオメトリ認識キューを統合するオンライン・モダリティ・モデル編集手法である。
提案手法では,事前学習したビジュアルジオメトリグラウンドドトランスの機能を活用し,少数の2次元画像からの幾何的キュー推論を可能にする。
幾何とセマンティックスをシームレスに組み合わせることの難しさに対処するため、GOT-Editは、幾何情報を包含し、セマンティック識別を保持しながら、様々なシナリオで一貫してより良いパフォーマンスをもたらすような、ヌルスペース制約付き更新によるオンラインモデル編集を行う。
複数のGOTベンチマークの大規模な実験により、GOT-Editは、特に閉塞と乱れの下で、より優れた堅牢性と精度を実現し、ジェネリックオブジェクト追跡のための2次元意味論と3次元幾何学的推論を組み合わせるための新しいパラダイムを確立した。
関連論文リスト
- PercHead: Perceptual Head Model for Single-Image 3D Head Reconstruction & Editing [51.56943889042673]
PercHeadは、シングルイメージの3Dヘッド再構成とセマンティック3D編集のための方法である。
単一の入力画像からビュー一貫性を持つ3Dヘッドを再構成するための統一ベースモデルを開発する。
軽量でインタラクティブなGUIを通して、直感的で強力な3D編集機能を強調します。
論文 参考訳(メタデータ) (2025-11-04T17:59:15Z) - IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - GeoPurify: A Data-Efficient Geometric Distillation Framework for Open-Vocabulary 3D Segmentation [57.8059956428009]
2次元視覚言語モデルから3次元セマンティックセグメンテーションへ機能を移行しようとする最近の試みは、永続的なトレードオフを露呈している。
3次元教師モデルから抽出した幾何学的事前情報を用いて2次元VLM生成した3次元点特徴に小さな学生親和性ネットワークを適用したGeoPurifyを提案する。
遅延幾何学情報と学習された親和性ネットワークから恩恵を受けることで、GeoPurifyはトレードオフを効果的に軽減し、優れたデータ効率を実現する。
論文 参考訳(メタデータ) (2025-10-02T16:37:56Z) - 3D-LATTE: Latent Space 3D Editing from Textual Instructions [64.77718887666312]
本研究では,ネイティブな3次元拡散モデルの潜在空間内で動作する学習自由な編集手法を提案する。
生成元からの3Dアテンションマップとソースオブジェクトをブレンドすることで、編集合成をガイドする。
論文 参考訳(メタデータ) (2025-08-29T22:51:59Z) - Geometry and Perception Guided Gaussians for Multiview-consistent 3D Generation from a Single Image [10.648593818811976]
既存のアプローチはしばしば、微調整された事前訓練された2D拡散モデルや、高速ネットワーク推論を通じて直接3D情報を生成することに依存している。
本稿では,新たなモデルトレーニングを必要とせず,幾何学と知覚情報をシームレスに統合する新しい手法を提案する。
実験結果から,新しい視点合成法や3次元再構成法よりも優れ,頑健で一貫した3次元オブジェクト生成を実証した。
論文 参考訳(メタデータ) (2025-06-26T11:22:06Z) - Shape from Semantics: 3D Shape Generation from Multi-View Semantics [30.969299308083723]
既存の3D再構成手法では, 3次元画像, 3次元点雲, 形状輪郭, 単一意味論などのガイダンスを用いて3次元表面を復元する。
図形や外観が、異なる視点から見ると、与えられたテキストの意味と一致した3Dモデルを作成することを目的として、新しい3Dモデリングタスク「Shape from Semantics'」を提案する。
論文 参考訳(メタデータ) (2025-02-01T07:51:59Z) - MonoDGP: Monocular 3D Object Detection with Decoupled-Query and Geometry-Error Priors [24.753860375872215]
本稿では,MonoDGPと呼ばれるトランスフォーマーを用いたモノクロ3Dオブジェクト検出手法を提案する。
射影公式を変更するために、パースペクティブ不変幾何誤差を採用する。
提案手法は, 余分なデータを必要としないKITTIベンチマークにおいて, 最先端の性能を示す。
論文 参考訳(メタデータ) (2024-10-25T14:31:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。