論文の概要: Online Descriptor Enhancement via Self-Labelling Triplets for Visual
Data Association
- arxiv url: http://arxiv.org/abs/2011.10471v2
- Date: Thu, 3 Jun 2021 21:12:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 05:25:22.606744
- Title: Online Descriptor Enhancement via Self-Labelling Triplets for Visual
Data Association
- Title(参考訳): 視覚データアソシエーションのための自己ラベルトリプレットによるオンラインディスクリプタエンハンスメント
- Authors: Yorai Shaoul, Katherine Liu, Kyel Ok and Nicholas Roy
- Abstract要約: オブジェクトレベルの視覚データアソシエーションのタスクにおいて,視覚記述子を漸進的に精製する自己教師型手法を提案する。
本手法は,ドメインに依存しないデータで事前学習した画像分類ネットワークを継続的にトレーニングすることにより,オンラインのディープディスクリプタジェネレータを最適化する。
提案手法はトラッキング・バイ・ディテクト・タスクに適用された他の視覚的データ・アソシエーション手法を超越し,観測情報に適応しようとする他の手法と比較して,優れた性能向上を提供することを示す。
- 参考スコア(独自算出の注目度): 28.03285334702022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object-level data association is central to robotic applications such as
tracking-by-detection and object-level simultaneous localization and mapping.
While current learned visual data association methods outperform hand-crafted
algorithms, many rely on large collections of domain-specific training examples
that can be difficult to obtain without prior knowledge. Additionally, such
methods often remain fixed during inference-time and do not harness observed
information to better their performance. We propose a self-supervised method
for incrementally refining visual descriptors to improve performance in the
task of object-level visual data association. Our method optimizes deep
descriptor generators online, by continuously training a widely available image
classification network pre-trained with domain-independent data. We show that
earlier layers in the network outperform later-stage layers for the data
association task while also allowing for a 94% reduction in the number of
parameters, enabling the online optimization. We show that self-labelling
challenging triplets--choosing positive examples separated by large temporal
distances and negative examples close in the descriptor space--improves the
quality of the learned descriptors for the multi-object tracking task. Finally,
we demonstrate that our approach surpasses other visual data-association
methods applied to a tracking-by-detection task, and show that it provides
better performance-gains when compared to other methods that attempt to adapt
to observed information.
- Abstract(参考訳): オブジェクトレベルのデータアソシエーションは、トラッキングバイ検出やオブジェクトレベルの同時ローカライゼーションやマッピングといったロボットアプリケーションの中心である。
現在の学習済みのビジュアルデータアソシエーションメソッドは、手作りのアルゴリズムよりも優れていますが、多くは、事前の知識なしでは入手が難しいドメイン固有のトレーニングサンプルの大規模なコレクションに依存しています。
さらに、そのような手法は推論時に固定され、観測された情報を利用して性能を向上しないことが多い。
オブジェクトレベルの視覚データアソシエーションのタスクにおいて,視覚記述子を漸進的に精製する自己教師手法を提案する。
本手法は,ドメインに依存しないデータで事前学習した画像分類ネットワークを継続的にトレーニングすることにより,オンラインのディープ・ディスクリプタ・ジェネレータを最適化する。
ネットワーク内の初期のレイヤは、データアソシエーションタスクの後期層よりも優れており、パラメータの数を94%削減し、オンライン最適化を可能にした。
自己ラベルの挑戦的三重項--大きな時間距離とディスクリプタ空間に近い負の例で分離された正の例-は、多目的追跡タスクの学習記述子の質を向上させる。
最後に,提案手法が追跡・検出タスクに適用される他の視覚データ連想手法を上回っており,観測情報に適応しようとする他の手法と比較して優れた性能向上をもたらすことを示す。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Reinforcement Learning Based Multi-modal Feature Fusion Network for
Novel Class Discovery [47.28191501836041]
本稿では,人間の認知過程をシミュレートするために強化学習フレームワークを用いる。
また,マルチモーダル情報から特徴を抽出・融合するマルチエージェントフレームワークをデプロイした。
我々は、OS-MN40、OS-MN40-Miss、Cifar10データセットを用いて、3Dドメインと2Dドメインの両方でのアプローチの性能を示す。
論文 参考訳(メタデータ) (2023-08-26T07:55:32Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - TrueDeep: A systematic approach of crack detection with less data [0.0]
ドメイン知識をディープラーニングアーキテクチャと組み合わせることで、少ないデータで同様のパフォーマンスを実現することができることを示す。
我々のアルゴリズムは、全データの23%で開発され、テストデータ上でも同様の性能を持ち、複数の盲点データセット上では大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-05-30T14:51:58Z) - S$^3$Track: Self-supervised Tracking with Soft Assignment Flow [45.77333923477176]
ビデオレベルのアソシエーションラベルを使わずに、自己監督型複数物体追跡について検討する。
オブジェクトアソシエーションのための微分可能なソフトオブジェクト割り当てを提案する。
提案手法は,KITTI,nuScenes,Argoverseのデータセットを用いて評価する。
論文 参考訳(メタデータ) (2023-05-17T06:25:40Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - GAN-Supervised Dense Visual Alignment [95.37027391102684]
本稿では,識別モデル学習のためのフレームワークであるGAN-Supervised Learningと,GAN生成した学習データをエンドツーエンドで共同で学習する手法を提案する。
従来のCongealing法にインスパイアされた我々のGANgealingアルゴリズムは、Spatial Transformerを訓練し、不整合データに基づいて訓練されたGANのランダムなサンプルを共通の目標モードにマッピングする。
論文 参考訳(メタデータ) (2021-12-09T18:59:58Z) - Segment as Points for Efficient Online Multi-Object Tracking and
Segmentation [66.03023110058464]
本稿では,コンパクトな画像表現を非秩序な2次元点クラウド表現に変換することで,セグメントに基づくインスタンス埋め込みの学習に有効な方法を提案する。
本手法は,画像ではなく,ランダムに選択された点から識別インスタンスの埋め込みを学習する,新たなトラッキング・バイ・ポイントのパラダイムを生成する。
PointTrackという名前のオンラインMOTSフレームワークは、最先端のすべてのメソッドを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2020-07-03T08:29:35Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z) - Object-Adaptive LSTM Network for Real-time Visual Tracking with
Adversarial Data Augmentation [31.842910084312265]
本稿では,オブジェクト適応型LSTMネットワークを用いて,映像の逐次的依存関係を効果的に捕捉し,オブジェクトの外観変化を適応的に学習する,新しいリアルタイムビジュアルトラッキング手法を提案する。
4つのビジュアルトラッキングベンチマーク実験により,トラッキング精度と速度の両面から,提案手法の最先端性能を実証した。
論文 参考訳(メタデータ) (2020-02-07T03:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。