論文の概要: Using Sensory Time-cue to enable Unsupervised Multimodal Meta-learning
- arxiv url: http://arxiv.org/abs/2009.07879v1
- Date: Wed, 16 Sep 2020 18:18:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 22:43:44.854063
- Title: Using Sensory Time-cue to enable Unsupervised Multimodal Meta-learning
- Title(参考訳): 知覚時間キューを用いた教師なしマルチモーダルメタラーニング
- Authors: Qiong Liu, Yanxia Zhang
- Abstract要約: 本稿では,教師なしメタラーニング(STUM)のための感覚的時間キューを提案する。
STUMシステムは、入力の時間関係を利用して、モダリティ内および横断的な特徴空間の形成を誘導する。
オーディオ視覚学習の例では、連続した視覚的フレームが通常同じオブジェクトで構成されているため、このアプローチは、同じオブジェクトから特徴をまとめるユニークな方法を提供する。
- 参考スコア(独自算出の注目度): 8.179380217027473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As data from IoT (Internet of Things) sensors become ubiquitous,
state-of-the-art machine learning algorithms face many challenges on directly
using sensor data. To overcome these challenges, methods must be designed to
learn directly from sensors without manual annotations. This paper introduces
Sensory Time-cue for Unsupervised Meta-learning (STUM). Different from
traditional learning approaches that either heavily depend on labels or on
time-independent feature extraction assumptions, such as Gaussian distribution
features, the STUM system uses time relation of inputs to guide the feature
space formation within and across modalities. The fact that STUM learns from a
variety of small tasks may put this method in the camp of Meta-Learning.
Different from existing Meta-Learning approaches, STUM learning tasks are
composed within and across multiple modalities based on time-cue co-exist with
the IoT streaming data. In an audiovisual learning example, because consecutive
visual frames usually comprise the same object, this approach provides a unique
way to organize features from the same object together. The same method can
also organize visual object features with the object's spoken-name features
together if the spoken name is presented with the object at about the same
time. This cross-modality feature organization may further help the
organization of visual features that belong to similar objects but acquired at
different location and time. Promising results are achieved through
evaluations.
- Abstract(参考訳): IoT(Internet of Things)センサーからのデータがユビキタスになると、最先端の機械学習アルゴリズムは、センサデータを直接使用する上で多くの課題に直面します。
これらの課題を克服するには、手動のアノテーションなしでセンサーから直接学習するように設計する必要がある。
本稿では,教師なしメタラーニング(STUM)のための感覚タイムキューを提案する。
ガウス分布の特徴など、ラベルや時間に依存しない特徴抽出の仮定に大きく依存する従来の学習手法とは異なり、STUMシステムは入力の時間関係を利用して特徴空間の形成をモダリティ内およびモダリティ間で導く。
STUMが様々な小さなタスクから学習しているという事実は、メタラーニングのキャンプにこの方法を置くかもしれない。
既存のMeta-Learningアプローチとは異なり、STUM学習タスクはIoTストリーミングデータと共存するタイムキューに基づいて、複数のモード内で構成される。
聴覚学習の例では、連続した視覚的フレームが通常同じオブジェクトで構成されているため、このアプローチは同一オブジェクトから特徴をまとめるユニークな方法を提供する。
同じ方法では、オブジェクトにほぼ同時に音声名が表示される場合、オブジェクトの音声名の特徴を伴う視覚的オブジェクトの特徴をまとめることもできる。
このクロスモダリティ機能組織は、類似のオブジェクトに属するが、異なる位置と時間で取得される視覚的特徴の組織化をさらに助けるかもしれない。
結果は評価によって達成される。
関連論文リスト
- VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。
OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。
VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-11T05:01:49Z) - Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - Mitigating Object Dependencies: Improving Point Cloud Self-Supervised Learning through Object Exchange [50.45953583802282]
我々は,ポイントクラウドシーン理解のための新たな自己教師型学習(SSL)戦略を導入する。
このアプローチでは、オブジェクトパターンとコンテキストキューの両方を活用して、堅牢な機能を生成します。
提案手法は既存のSSL技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-11T06:39:53Z) - Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。
提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-11-17T08:17:49Z) - S$^3$Track: Self-supervised Tracking with Soft Assignment Flow [45.77333923477176]
ビデオレベルのアソシエーションラベルを使わずに、自己監督型複数物体追跡について検討する。
オブジェクトアソシエーションのための微分可能なソフトオブジェクト割り当てを提案する。
提案手法は,KITTI,nuScenes,Argoverseのデータセットを用いて評価する。
論文 参考訳(メタデータ) (2023-05-17T06:25:40Z) - STURE: Spatial-Temporal Mutual Representation Learning for Robust Data
Association in Online Multi-Object Tracking [7.562844934117318]
提案手法は、より区別された検出とシーケンス表現を抽出することができる。
パブリックMOTチャレンジベンチマークに適用され、様々な最先端のオンラインMOTトラッカーとよく比較される。
論文 参考訳(メタデータ) (2022-01-18T08:52:40Z) - Multimodal Clustering Networks for Self-supervised Learning from
Unlabeled Videos [69.61522804742427]
本稿では,共通のマルチモーダル埋め込み空間を学習する自己監督型トレーニングフレームワークを提案する。
インスタンスレベルのコントラスト学習の概念をマルチモーダルクラスタリングステップで拡張し,モダリティ間の意味的類似性を捉える。
結果として得られる埋め込みスペースは、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたるサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2021-04-26T15:55:01Z) - Few-Cost Salient Object Detection with Adversarial-Paced Learning [95.0220555274653]
本稿では,少数のトレーニング画像にのみ手動アノテーションを応用して,効果的なサルエント物体検出モデルを学習することを提案する。
我々は,このタスクを,少額の有能な物体検出とみなし,少数のコストの学習シナリオを促進するために,APL(Adversarialpaced Learning)ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T14:15:49Z) - A Survey on Contrastive Self-supervised Learning [0.0]
自己教師付き学習は、大規模なデータセットのアノテートコストを回避する能力によって人気を集めている。
コントラスト学習は近年,コンピュータビジョン,自然言語処理(NLP)などの分野において,自己指導型学習手法の主流となっている。
本稿では, コントラスト的アプローチに従う自己教師型手法について, 広範囲にわたるレビューを行う。
論文 参考訳(メタデータ) (2020-10-31T21:05:04Z) - Sense and Learn: Self-Supervision for Omnipresent Sensors [9.442811508809994]
我々は、生の知覚データから表現や特徴学習のためのSense and Learnというフレームワークを提案する。
これは、面倒なラベル付けプロセスに人間が関与することなく、注釈のないデータから、高レベルで広範囲に有用な特徴を学習できる補助的なタスクで構成されている。
提案手法は、教師付きアプローチと競合する結果を達成し、ネットワークを微調整し、ほとんどの場合、下流タスクを学習することでギャップを埋める。
論文 参考訳(メタデータ) (2020-09-28T11:57:43Z) - A System for Real-Time Interactive Analysis of Deep Learning Training [66.06880335222529]
現在利用可能なシステムは、トレーニングプロセスが始まる前に指定しなければならないログデータのみを監視することに限定されている。
本稿では,リアルタイム情報を生成するライブプロセス上で対話型クエリを実行可能にするシステムを提案する。
論文 参考訳(メタデータ) (2020-01-05T11:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。