論文の概要: A topological solution to object segmentation and tracking
- arxiv url: http://arxiv.org/abs/2107.02036v1
- Date: Mon, 5 Jul 2021 13:52:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 17:40:33.131199
- Title: A topological solution to object segmentation and tracking
- Title(参考訳): 物体のセグメンテーションと追跡に対するトポロジ的解法
- Authors: Thomas Tsao and Doris Y. Tsao
- Abstract要約: 現在のコンピュータビジョンのセグメンテーションへのアプローチと人間のパフォーマンスへのアプローチは、すべて学習を必要とする。
ここでは、環境表面から反射される光線の数学的構造が、持続的な表面の自然な表現をもたらすことを示す。
本手法は,学習を必要とせず,外観が著しく変化しても,雑多な合成ビデオ中の物体を分割・不変に追跡できることを実証する。
- 参考スコア(独自算出の注目度): 0.951828574518325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The world is composed of objects, the ground, and the sky. Visual perception
of objects requires solving two fundamental challenges: segmenting visual input
into discrete units, and tracking identities of these units despite appearance
changes due to object deformation, changing perspective, and dynamic occlusion.
Current computer vision approaches to segmentation and tracking that approach
human performance all require learning, raising the question: can objects be
segmented and tracked without learning? Here, we show that the mathematical
structure of light rays reflected from environment surfaces yields a natural
representation of persistent surfaces, and this surface representation provides
a solution to both the segmentation and tracking problems. We describe how to
generate this surface representation from continuous visual input, and
demonstrate that our approach can segment and invariantly track objects in
cluttered synthetic video despite severe appearance changes, without requiring
learning.
- Abstract(参考訳): 世界は物、地面、空で構成されています。
物体の視覚知覚は、視覚入力を離散単位に分割し、物体の変形、遠近性の変化、動的咬合による外観変化にもかかわらず、これらの単位のアイデンティティを追跡するという2つの基本的な課題を解決する必要がある。
現在のコンピュータビジョンによるセグメンテーションとトラッキングへのアプローチ 人間のパフォーマンスへのアプローチには、すべて学習が必要です。
本稿では,環境面から反射される光線の数学的構造が永続面の自然な表現をもたらすことを示し,この表面表現はセグメンテーション問題と追跡問題の両方に対する解を与える。
連続的な視覚入力からこの表面表現を生成する方法について述べるとともに, 学習を必要とせず, 過度な外観変化にもかかわらず, クラッタ化された合成ビデオで物体を分割し, 不変に追跡できることを実証する。
関連論文リスト
- Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - Seeing Objects in a Cluttered World: Computational Objectness from
Motion in Video [0.0]
物体が重なり合う物体と物理的に異なるものとして、世界の視覚的に不連続な表面を認識することは、視覚的知覚の基礎となる。
対象モデルを持たない現象学から客観性を推定するための,単純だが新しい手法を提案する。
ぼやけやカメラの震えがあっても、個々の被写体をぼやけたシーンでしっかりと認識できることを示す。
論文 参考訳(メタデータ) (2024-02-02T03:57:11Z) - Tracking through Containers and Occluders in the Wild [32.86030395660071]
重い閉塞と封じ込めによる視覚追跡のための新しいベンチマークとモデルである$textbfTCOW$を紹介した。
我々は、教師付き学習とモデル性能の構造化評価の両方をサポートするために、合成データセットと注釈付き実データセットの混合を作成する。
最近の2つのトランスフォーマーベースビデオモデルを評価し,タスク変動の特定の設定下でターゲットを驚くほど追跡できるが,トラッキングモデルが真のオブジェクト永続性(permanence)の概念を獲得したと主張するまでには,かなりの性能差が残っていることを発見した。
論文 参考訳(メタデータ) (2023-05-04T17:59:58Z) - Robust and Controllable Object-Centric Learning through Energy-based
Models [95.68748828339059]
我々の研究は概念的にシンプルで一般的なアプローチであり、エネルギーベースモデルを通してオブジェクト中心の表現を学習する。
既存のアーキテクチャに容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:11:15Z) - SAVi++: Towards End-to-End Object-Centric Learning from Real-World
Videos [23.64091569954785]
スロットベースのビデオ表現から深度信号を予測するために訓練されたオブジェクト中心のビデオモデルSAVi++を紹介する。
LiDARから得られたスパースディープ信号を使用することで、SAVi++は現実世界のOpenデータセットで、創発的なオブジェクトセグメンテーションとビデオからのトラッキングを学習することができる。
論文 参考訳(メタデータ) (2022-06-15T18:57:07Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - The Emergence of Objectness: Learning Zero-Shot Segmentation from Videos [59.12750806239545]
動画は移動成分によって同じシーンを異なる視点で見ることができ、適切な領域分割と領域フローは相互のビュー合成を可能にする。
モデルでは,1枚の画像に対して特徴に基づく領域分割を出力する出現経路と,1枚の画像に対して動作特徴を出力する動き経路の2つの経路から開始する。
セグメントフローに基づく視線合成誤差を最小限に抑えるためにモデルを訓練することにより、我々の外観経路と運動経路は、それぞれ低レベルのエッジや光フローから構築することなく、領域のセグメンテーションとフロー推定を自動的に学習する。
論文 参考訳(メタデータ) (2021-11-11T18:59:11Z) - Object-Centric Representation Learning with Generative Spatial-Temporal
Factorization [5.403549896734018]
DyMON(Dynamics-Aware Multi-Object Network)は,動的シーンへの多視点オブジェクト中心表現学習の範囲を広げる手法である。
そこで我々は,DyMONが観測者の動きとシーンオブジェクトの運動の絡み合った影響を,一連の観測結果から分解することを学習していることを示す。
また,要因化されたシーン表現は,空間と時間で独立して単一のオブジェクトを問合せできることを示す。
論文 参考訳(メタデータ) (2021-11-09T20:04:16Z) - Visiting the Invisible: Layer-by-Layer Completed Scene Decomposition [57.088328223220934]
既存のシーン理解システムは、主にシーンの可視部分を認識し、現実世界の物理的物体の無傷な外観を無視します。
本研究では,ある場面における物体と背景の可視部分と可視部分の両方に取り組む高レベルのシーン理解システムを提案する。
論文 参考訳(メタデータ) (2021-04-12T11:37:23Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。