論文の概要: Tracking Without Re-recognition in Humans and Machines
- arxiv url: http://arxiv.org/abs/2105.13351v1
- Date: Thu, 27 May 2021 17:56:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 17:24:06.941509
- Title: Tracking Without Re-recognition in Humans and Machines
- Title(参考訳): 人間と機械の再認識のない追跡
- Authors: Drew Linsley, Girik Malik, Junkyung Kim, Lakshmi N Govindarajan, Ennio
Mingolla, and Thomas Serre
- Abstract要約: 我々は、ビジュアルトラッキングのための最先端のディープニューラルネットワークが、同じことができるかどうか検討する。
PathTrackerは人間の観察者や機械に対象物を追跡するための視覚的課題である。
動作手がかりに基づく物体追跡に関係した生体脳の回路機構をモデル化する。
- 参考スコア(独自算出の注目度): 12.591847867999636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imagine trying to track one particular fruitfly in a swarm of hundreds.
Higher biological visual systems have evolved to track moving objects by
relying on both appearance and motion features. We investigate if
state-of-the-art deep neural networks for visual tracking are capable of the
same. For this, we introduce PathTracker, a synthetic visual challenge that
asks human observers and machines to track a target object in the midst of
identical-looking "distractor" objects. While humans effortlessly learn
PathTracker and generalize to systematic variations in task design,
state-of-the-art deep networks struggle. To address this limitation, we
identify and model circuit mechanisms in biological brains that are implicated
in tracking objects based on motion cues. When instantiated as a recurrent
network, our circuit model learns to solve PathTracker with a robust visual
strategy that rivals human performance and explains a significant proportion of
their decision-making on the challenge. We also show that the success of this
circuit model extends to object tracking in natural videos. Adding it to a
transformer-based architecture for object tracking builds tolerance to visual
nuisances that affect object appearance, resulting in a new state-of-the-art
performance on the large-scale TrackingNet object tracking challenge. Our work
highlights the importance of building artificial vision models that can help us
better understand human vision and improve computer vision.
- Abstract(参考訳): 数百羽の群れの中で1羽の果実を追跡しようという試みを想像してみてほしい。
高次生物視覚システムは、外観と運動の特徴の両方に依存することによって、動く物体を追跡するために進化してきた。
視覚追跡のための最先端のディープニューラルネットワークが同等であるかどうかについて検討する。
そこで本研究では,人間のオブザーバとマシンに対して,同一の"ディストラクタ(distractor)"オブジェクトの中で対象オブジェクトを追跡するように求める合成ビジュアルチャレンジであるpathtrackerを紹介する。
人間がPathTrackerを熱心に学び、タスクデザインの体系的なバリエーションに一般化する一方で、最先端のディープネットワークは苦労する。
この制限に対処するために,動作手がかりに基づく物体の追跡に関係した生体脳の回路機構を同定し,モデル化する。
我々の回路モデルは、リカレントネットワークとしてインスタンス化されると、人間のパフォーマンスに匹敵する堅牢な視覚戦略でPathTrackerを解くことを学び、その課題に対する意思決定のかなりの割合を説明する。
また,この回路モデルの成功は,自然映像における物体追跡にまで及ぶことを示した。
オブジェクトトラッキングのためのトランスフォーマーベースのアーキテクチャにそれを追加することで、オブジェクトの外観に影響を与える視覚的ニュアンスに対する耐性が向上する。
私たちの研究は、人間の視覚を理解し、コンピュータビジョンを改善するのに役立つ人工視覚モデルを構築することの重要性を強調しています。
関連論文リスト
- Tracking objects that change in appearance with phase synchrony [14.784044408031098]
ニューラルシンクロニーにより,新たな深層学習回路が,世界の場所と独立して特徴への注意を制御できることが示される。
大規模課題であるFeatureTrackerを用いて、人間、CV-RNN、その他のディープニューラルネットワーク(DNN)のオブジェクト追跡を比較した。
我々のCV-RNNは、この課題において人間と同じような振る舞いをし、相同期の役割の計算的概念実証を提供する。
論文 参考訳(メタデータ) (2024-10-02T23:30:05Z) - Learning Object-Centric Representation via Reverse Hierarchy Guidance [73.05170419085796]
OCL(Object-Centric Learning)は、ニューラルネットワークが視覚的なシーンで個々のオブジェクトを識別できるようにする。
RHGNetは、トレーニングと推論プロセスにおいて、さまざまな方法で機能するトップダウンパスを導入している。
我々のモデルは、よく使われる複数のデータセット上でSOTA性能を達成する。
論文 参考訳(メタデータ) (2024-05-17T07:48:27Z) - Tracking through Containers and Occluders in the Wild [32.86030395660071]
重い閉塞と封じ込めによる視覚追跡のための新しいベンチマークとモデルである$textbfTCOW$を紹介した。
我々は、教師付き学習とモデル性能の構造化評価の両方をサポートするために、合成データセットと注釈付き実データセットの混合を作成する。
最近の2つのトランスフォーマーベースビデオモデルを評価し,タスク変動の特定の設定下でターゲットを驚くほど追跡できるが,トラッキングモデルが真のオブジェクト永続性(permanence)の概念を獲得したと主張するまでには,かなりの性能差が残っていることを発見した。
論文 参考訳(メタデータ) (2023-05-04T17:59:58Z) - BI AVAN: Brain inspired Adversarial Visual Attention Network [67.05560966998559]
機能的脳活動から直接人間の視覚的注意を特徴付ける脳誘発対人視覚注意ネットワーク(BI-AVAN)を提案する。
本モデルは,人間の脳が監督されていない方法で焦点を絞った映画フレーム内の視覚的物体を識別・発見するために,注意関連・無視対象間の偏りのある競合過程を模倣する。
論文 参考訳(メタデータ) (2022-10-27T22:20:36Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - Learning What and Where -- Unsupervised Disentangling Location and
Identity Tracking [0.44040106718326594]
教師なしLOCation and Identity Tracking System(Loci)を導入する。
ローチは脳の背腹側経路にインスパイアされ、自己監督された分離機構を用いて、何とどこにも結合する問題に取り組む。
Lociは、より深い説明指向のビデオ処理のステージを設定できる。
論文 参考訳(メタデータ) (2022-05-26T13:30:14Z) - Single Object Tracking Research: A Survey [44.24280758718638]
本稿では,過去10年間に最も人気の高い追跡フレームワーク2つについて,その理論的根拠と作業について述べる。
本稿では,異なるネットワーク構造に分類したディープラーニングに基づく追跡手法を提案する。
また、追跡問題の課題に対処するための古典的な戦略についても紹介する。
論文 参考訳(メタデータ) (2022-04-25T02:59:15Z) - The Right Spin: Learning Object Motion from Rotation-Compensated Flow
Fields [61.664963331203666]
人間がどのように動く物体を知覚するかは、コンピュータービジョンにおける長年の研究課題である。
この問題の1つのアプローチは、これらすべての効果をモデル化するためのディープネットワークを教えることである。
運動場からカメラの回転を推定する新しい確率モデルを提案する。
論文 参考訳(メタデータ) (2022-02-28T22:05:09Z) - The Challenge of Appearance-Free Object Tracking with Feedforward Neural
Networks [12.081808043723937]
$itPathTracker$は、観察者が自分の動きだけでオブジェクトを追跡することを学べる機能をテストする。
標準的な3D畳み込み型ディープネットワークモデルは,この問題の解決に苦慮している。
生物学的視覚からの外見のない物体追跡のための戦略は、解決策を刺激することができる。
論文 参考訳(メタデータ) (2021-09-30T17:58:53Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Robust Visual Object Tracking with Two-Stream Residual Convolutional
Networks [62.836429958476735]
視覚追跡のための2ストリーム残差畳み込みネットワーク(TS-RCN)を提案する。
私たちのTS-RCNは、既存のディープラーニングベースのビジュアルトラッカーと統合することができます。
トラッキング性能をさらに向上するため、我々はResNeXtを特徴抽出バックボーンとして採用する。
論文 参考訳(メタデータ) (2020-05-13T19:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。