論文の概要: Learning What and Where -- Unsupervised Disentangling Location and
Identity Tracking
- arxiv url: http://arxiv.org/abs/2205.13349v1
- Date: Thu, 26 May 2022 13:30:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 14:30:25.253423
- Title: Learning What and Where -- Unsupervised Disentangling Location and
Identity Tracking
- Title(参考訳): 場所と場所を学習する -- 教師なしの場所とアイデンティティ追跡
- Authors: Manuel Traub, Sebastian Otte, Tobias Menge, Matthias Karlbauer, Jannik
Th\"ummel, Martin V. Butz
- Abstract要約: 教師なしLOCation and Identity Tracking System(Loci)を導入する。
ローチは脳の背腹側経路にインスパイアされ、自己監督された分離機構を用いて、何とどこにも結合する問題に取り組む。
Lociは、より深い説明指向のビデオ処理のステージを設定できる。
- 参考スコア(独自算出の注目度): 0.44040106718326594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our brain can almost effortlessly decompose visual data streams into
background and salient objects. Moreover, it can track the objects and
anticipate their motion and interactions. In contrast, recent object reasoning
datasets, such as CATER, have revealed fundamental shortcomings of current
vision-based AI systems, particularly when targeting explicit object encodings,
object permanence, and object reasoning. We introduce an unsupervised
disentangled LOCation and Identity tracking system (Loci), which excels on the
CATER tracking challenge. Inspired by the dorsal-ventral pathways in the brain,
Loci tackles the what-and-where binding problem by means of a self-supervised
segregation mechanism. Our autoregressive neural network partitions and
distributes the visual input stream across separate, identically-parameterized
and autonomously recruited neural network modules. Each module binds what with
where, that is, compressed Gestalt encodings with locations. On the deep latent
encoding levels interaction dynamics are processed. Besides exhibiting superior
performance in current benchmarks, we propose that Loci may set the stage for
deeper, explanation-oriented video processing -- akin to some deeper networked
processes in the brain that appear to integrate individual entity and
spatiotemporal interaction dynamics into event structures.
- Abstract(参考訳): 私たちの脳は、視覚データストリームをバックグラウンドとサルエントなオブジェクトにほとんど無力に分解することができます。
さらに、物体を追跡し、その動きや相互作用を予測できる。
対照的に、CATERのような最近のオブジェクト推論データセットは、特に明示的なオブジェクトエンコーディング、オブジェクト永続性、オブジェクト推論をターゲットとする場合、現在のビジョンベースのAIシステムの根本的な欠点を明らかにしている。
本稿では,CATER追跡課題に長けている非教師なしのLOCation and Identity Tracking System (Loci)を紹介する。
lociは脳の背側-腹側経路にインスパイアされ、自己監視された分離機構によって結合する問題に取り組む。
我々の自己回帰ニューラルネットワークは、視覚的な入力ストリームを、同じパラメータ化と自律的に採用されたニューラルネットワークモジュールに分割し、分散します。
各モジュールは、圧縮されたGestaltエンコーディングの場所を場所と結合する。
深い潜伏エンコーディングレベルでは、相互作用ダイナミクスが処理される。
現在のベンチマークで優れたパフォーマンスを示すだけでなく、lociは、個々のエンティティと時空間的相互作用のダイナミクスをイベント構造に統合しているように見える脳内の、より深いネットワーク化されたプロセスに似た、より深い説明指向のビデオ処理のステージを設定できるかもしれない。
関連論文リスト
- Tracking objects that change in appearance with phase synchrony [14.784044408031098]
ニューラルシンクロニーにより,新たな深層学習回路が,世界の場所と独立して特徴への注意を制御できることが示される。
大規模課題であるFeatureTrackerを用いて、人間、CV-RNN、その他のディープニューラルネットワーク(DNN)のオブジェクト追跡を比較した。
我々のCV-RNNは、この課題において人間と同じような振る舞いをし、相同期の役割の計算的概念実証を提供する。
論文 参考訳(メタデータ) (2024-10-02T23:30:05Z) - Connectivity-Inspired Network for Context-Aware Recognition [1.049712834719005]
視覚認知に対処するために,生体脳の回路モチーフを取り入れることの効果に焦点をあてる。
私たちの畳み込みアーキテクチャは、人間の皮質と皮質下の流れの接続にインスパイアされています。
我々はコンテキスト認識をモデル化するための新しいプラグイン・アンド・プレイ・モジュールを提案する。
論文 参考訳(メタデータ) (2024-09-06T15:42:10Z) - The Dynamic Net Architecture: Learning Robust and Holistic Visual Representations Through Self-Organizing Networks [3.9848584845601014]
動的ネットアーキテクチャ(DNA)と呼ばれる新しいインテリジェントシステムアーキテクチャを提案する。
DNAは繰り返し安定化されたネットワークに依存し、それを視覚に応用するために議論する。
論文 参考訳(メタデータ) (2024-07-08T06:22:10Z) - Learning Object-Centric Representation via Reverse Hierarchy Guidance [73.05170419085796]
OCL(Object-Centric Learning)は、ニューラルネットワークが視覚的なシーンで個々のオブジェクトを識別できるようにする。
RHGNetは、トレーニングと推論プロセスにおいて、さまざまな方法で機能するトップダウンパスを導入している。
我々のモデルは、よく使われる複数のデータセット上でSOTA性能を達成する。
論文 参考訳(メタデータ) (2024-05-17T07:48:27Z) - BI AVAN: Brain inspired Adversarial Visual Attention Network [67.05560966998559]
機能的脳活動から直接人間の視覚的注意を特徴付ける脳誘発対人視覚注意ネットワーク(BI-AVAN)を提案する。
本モデルは,人間の脳が監督されていない方法で焦点を絞った映画フレーム内の視覚的物体を識別・発見するために,注意関連・無視対象間の偏りのある競合過程を模倣する。
論文 参考訳(メタデータ) (2022-10-27T22:20:36Z) - Bi-directional Object-context Prioritization Learning for Saliency
Ranking [60.62461793691836]
既存のアプローチは、オブジェクトオブジェクトかオブジェクトシーンの関係を学ぶことに集中しています。
我々は,人間の視覚認識システムにおいて,空間的注意と物体に基づく注意が同時に機能することが観察された。
本稿では,空間的注意を統一する新たな双方向手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T16:16:03Z) - The Challenge of Appearance-Free Object Tracking with Feedforward Neural
Networks [12.081808043723937]
$itPathTracker$は、観察者が自分の動きだけでオブジェクトを追跡することを学べる機能をテストする。
標準的な3D畳み込み型ディープネットワークモデルは,この問題の解決に苦慮している。
生物学的視覚からの外見のない物体追跡のための戦略は、解決策を刺激することができる。
論文 参考訳(メタデータ) (2021-09-30T17:58:53Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Attentional Separation-and-Aggregation Network for Self-supervised
Depth-Pose Learning in Dynamic Scenes [19.704284616226552]
エピポーラプロジェクションからの自己監督によるラベルなしビデオからの深度とエゴモーションの学習は、視覚に基づくロボットの3D知覚の堅牢性と精度を向上させることができる。
しかし、エゴモーションによって計算される剛性プロジェクションは、移動物体の点などすべてのシーンポイントを表現できないため、これらの領域では誤ったガイダンスが導かれる。
本研究では,アテンショナル・アグリゲーション・ネットワーク(ASANet)を提案する。アテンショナル・アグリゲーション・ネットワークは,アテンション・メカニズムによってシーンの静的・動的特性を識別・抽出することができる。
論文 参考訳(メタデータ) (2020-11-18T16:07:30Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z) - Ventral-Dorsal Neural Networks: Object Detection via Selective Attention [51.79577908317031]
我々はVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
人間の視覚システムの構造にインスパイアされた我々は「Ventral Network」と「Dorsal Network」の統合を提案する。
実験の結果,提案手法は最先端の物体検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-15T23:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。