論文の概要: Seeing Objects in a Cluttered World: Computational Objectness from
Motion in Video
- arxiv url: http://arxiv.org/abs/2402.01126v1
- Date: Fri, 2 Feb 2024 03:57:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 17:05:23.819065
- Title: Seeing Objects in a Cluttered World: Computational Objectness from
Motion in Video
- Title(参考訳): 乱雑な世界の物体を見る:ビデオ中の動きから計算対象性
- Authors: Douglas Poland and Amar Saini
- Abstract要約: 物体が重なり合う物体と物理的に異なるものとして、世界の視覚的に不連続な表面を認識することは、視覚的知覚の基礎となる。
対象モデルを持たない現象学から客観性を推定するための,単純だが新しい手法を提案する。
ぼやけやカメラの震えがあっても、個々の被写体をぼやけたシーンでしっかりと認識できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Perception of the visually disjoint surfaces of our cluttered world as whole
objects, physically distinct from those overlapping them, is a cognitive
phenomenon called objectness that forms the basis of our visual perception.
Shared by all vertebrates and present at birth in humans, it enables
object-centric representation and reasoning about the visual world. We present
a computational approach to objectness that leverages motion cues and
spatio-temporal attention using a pair of supervised spatio-temporal
R(2+1)U-Nets. The first network detects motion boundaries and classifies the
pixels at those boundaries in terms of their local foreground-background sense.
This motion boundary sense (MBS) information is passed, along with a
spatio-temporal object attention cue, to an attentional surface perception
(ASP) module which infers the form of the attended object over a sequence of
frames and classifies its 'pixels' as visible or obscured. The spatial form of
the attention cue is flexible, but it must loosely track the attended object
which need not be visible. We demonstrate the ability of this simple but novel
approach to infer objectness from phenomenology without object models, and show
that it delivers robust perception of individual attended objects in cluttered
scenes, even with blur and camera shake. We show that our data diversity and
augmentation minimizes bias and facilitates transfer to real video. Finally, we
describe how this computational objectness capability can grow in
sophistication and anchor a robust modular video object perception framework.
- Abstract(参考訳): 物体全体を物理的に重なり合うものと区別する、乱雑な世界の視覚的な面の知覚は、視覚の知覚の基礎となる物体性と呼ばれる認知現象である。
すべての脊椎動物が共有し、人間の誕生時に存在し、視覚世界についてのオブジェクト中心の表現と推論を可能にする。
本稿では,教師付き時空間r(2+1)u-netsを用いた運動キューと時空間注意を利用する対象性計算手法を提案する。
第1のネットワークは、動き境界を検出し、それらの境界の画素を、そのローカルフォアグラウンド・バックグラウンド感覚で分類する。
この動き境界感覚(mbs)情報は、時空間的物体の注目の手がかりと共に、フレームのシーケンス上で出席した物体の形状を推定し、その「画素」を可視または曖昧に分類する注意面知覚(asp)モジュールに伝達される。
注意キューの空間的形状は柔軟であるが、見る必要のない被写体を緩やかに追跡する必要がある。
対象モデルのない表現学から客観性を推定するこの単純だが斬新なアプローチの能力を実証し,ぼやけやカメラの揺らぎを伴っても,個々の被写体を頑健に認識できることを示す。
データの多様性と拡張がバイアスを最小化し、実際のビデオへの転送を促進することを示す。
最後に,この計算対象度能力が高度化して,堅牢なモジュール型ビデオオブジェクト認識フレームワークを定着させる方法について述べる。
関連論文リスト
- Unsupervised Discovery of Object-Centric Neural Fields [21.223170092979498]
1つの画像から3次元オブジェクト中心のシーン表現を推定する。
我々は、対象中心神経場(uOCF)の教師なし発見を提案する。
論文 参考訳(メタデータ) (2024-02-12T02:16:59Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - Spotlight Attention: Robust Object-Centric Learning With a Spatial
Locality Prior [88.9319150230121]
オブジェクト中心のビジョンは、シーン内のオブジェクトの明示的な表現を構築することを目的としています。
我々は、空間的局所性を最先端のオブジェクト中心視覚モデルに組み込む。
合成および実世界の両方のデータセットにおけるセグメンテーションオブジェクトの大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-05-31T04:35:50Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Bi-directional Object-context Prioritization Learning for Saliency
Ranking [60.62461793691836]
既存のアプローチは、オブジェクトオブジェクトかオブジェクトシーンの関係を学ぶことに集中しています。
我々は,人間の視覚認識システムにおいて,空間的注意と物体に基づく注意が同時に機能することが観察された。
本稿では,空間的注意を統一する新たな双方向手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T16:16:03Z) - The Right Spin: Learning Object Motion from Rotation-Compensated Flow
Fields [61.664963331203666]
人間がどのように動く物体を知覚するかは、コンピュータービジョンにおける長年の研究課題である。
この問題の1つのアプローチは、これらすべての効果をモデル化するためのディープネットワークを教えることである。
運動場からカメラの回転を推定する新しい確率モデルを提案する。
論文 参考訳(メタデータ) (2022-02-28T22:05:09Z) - ObjectFolder: A Dataset of Objects with Implicit Visual, Auditory, and
Tactile Representations [52.226947570070784]
両課題に対処する100のオブジェクトからなるデータセットであるObjectを,2つの重要なイノベーションで紹介する。
まず、オブジェクトは視覚的、聴覚的、触覚的なすべてのオブジェクトの知覚データをエンコードし、多数の多感覚オブジェクト認識タスクを可能にする。
第2に、Objectは統一されたオブジェクト中心のシミュレーションと、各オブジェクトの視覚的テクスチャ、触覚的読み出し、触覚的読み出しに暗黙的な表現を採用しており、データセットの使用が柔軟で共有が容易である。
論文 参考訳(メタデータ) (2021-09-16T14:00:59Z) - Capturing the objects of vision with neural networks [0.0]
人間の視覚知覚はその物理的関節でシーンを彫り、世界をオブジェクトに分解する。
対照的に、視覚物体認識のディープニューラルネットワーク(DNN)モデルは、主に感覚入力と結びついている。
両分野の関連研究をレビューし、これらの分野が相互にどのように役立つかを検討する。
論文 参考訳(メタデータ) (2021-09-07T21:49:53Z) - A topological solution to object segmentation and tracking [0.951828574518325]
現在のコンピュータビジョンのセグメンテーションへのアプローチと人間のパフォーマンスへのアプローチは、すべて学習を必要とする。
ここでは、環境表面から反射される光線の数学的構造が、持続的な表面の自然な表現をもたらすことを示す。
本手法は,学習を必要とせず,外観が著しく変化しても,雑多な合成ビデオ中の物体を分割・不変に追跡できることを実証する。
論文 参考訳(メタデータ) (2021-07-05T13:52:57Z) - Unsupervised Discovery of 3D Physical Objects from Video [15.939924306990548]
物理,特に物体相互作用は,映像から3次元幾何学と物体の位置を教師なしで切り離すのにどのように役立つのかを考察する。
我々の物理オブジェクト発見ネットワーク(POD-Net)は、多スケールの画素キューと物理モーションキューの両方を使用して、様々な大きさの観測可能および部分的に隠蔽されたオブジェクトを正確に分割する。
論文 参考訳(メタデータ) (2020-07-24T04:46:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。