論文の概要: ViFiCon: Vision and Wireless Association Via Self-Supervised Contrastive
Learning
- arxiv url: http://arxiv.org/abs/2210.05513v1
- Date: Tue, 11 Oct 2022 15:04:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 16:31:03.673670
- Title: ViFiCon: Vision and Wireless Association Via Self-Supervised Contrastive
Learning
- Title(参考訳): ViFiCon: 自己監督型コントラスト学習によるビジョンとワイヤレスアソシエーション
- Authors: Nicholas Meegan, Hansi Liu, Bryan Cao, Abrar Alali, Kristin Dana,
Marco Gruteser, Shubham Jain and Ashwin Ashok
- Abstract要約: ViFiCon(バイフィコン)は、視覚と無線のモダリティをまたいだ同期情報を用いて、相互接続を行う自己教師型コントラスト学習方式である。
本稿では,ViFiConが高性能なビジョン・ツー・ワイヤレス・アソシエーションを実現し,どのバウンディングボックスがどのスマートフォンデバイスに対応するかを示す。
- 参考スコア(独自算出の注目度): 5.5232283752707785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce ViFiCon, a self-supervised contrastive learning scheme which
uses synchronized information across vision and wireless modalities to perform
cross-modal association. Specifically, the system uses pedestrian data
collected from RGB-D camera footage as well as WiFi Fine Time Measurements
(FTM) from a user's smartphone device. We represent the temporal sequence by
stacking multi-person depth data spatially within a banded image. Depth data
from RGB-D (vision domain) is inherently linked with an observable pedestrian,
but FTM data (wireless domain) is associated only to a smartphone on the
network. To formulate the cross-modal association problem as self-supervised,
the network learns a scene-wide synchronization of the two modalities as a
pretext task, and then uses that learned representation for the downstream task
of associating individual bounding boxes to specific smartphones, i.e.
associating vision and wireless information. We use a pre-trained region
proposal model on the camera footage and then feed the extrapolated bounding
box information into a dual-branch convolutional neural network along with the
FTM data. We show that compared to fully supervised SoTA models, ViFiCon
achieves high performance vision-to-wireless association, finding which
bounding box corresponds to which smartphone device, without hand-labeled
association examples for training data.
- Abstract(参考訳): 我々は、視覚と無線のモダリティをまたいだ同期情報を用いて、相互モーダルアソシエーションを行う、自己教師型コントラスト学習方式ViFiConを紹介する。
具体的には、RGB-Dカメラの映像から収集した歩行者データと、ユーザのスマートフォンから収集したWiFi Fine Time Measurements(FTM)を使用する。
重ね合わせ画像内に複数人の深度データを空間的に積み重ねて時間系列を表現する。
RGB-D(ビジョンドメイン)の深度データは本質的に観測可能な歩行者と結びついているが、FTMデータ(ワイヤレスドメイン)はネットワーク上のスマートフォンにのみ関連付けられている。
クロスモーダル・アソシエーション問題を自己教師として定式化するために、ネットワークは2つのモダリティのシーンワイド同期をプリテキストタスクとして学習し、学習した表現を用いて個々のバウンディングボックスを特定のスマートフォン、すなわち視覚と無線情報を関連付ける。
カメラ映像に事前学習された領域提案モデルを用い,ftmデータとともに,外挿境界ボックス情報を二重分岐畳み込みニューラルネットワークに供給する。
完全教師付きSoTAモデルと比較して、ViFiConはハイパフォーマンスなビジョンとワイヤレスのアソシエーションを実現し、どのバウンディングボックスがどのスマートフォンデバイスに対応しているかをトレーニングデータに手書きのアソシエーション例を使わずに見つける。
関連論文リスト
- ViFiT: Reconstructing Vision Trajectories from IMU and Wi-Fi Fine Time
Measurements [6.632056181867312]
携帯電話データ(IMUおよびファインタイム計測)から視界境界ボックス軌道を再構成するトランスフォーマーベースモデルViFiTを提案する。
ViFiTは0.65のMRFRを達成し、LSTM-Decoderアーキテクチャにおけるクロスモーダル再構築の最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2023-10-04T20:05:40Z) - SpikeMOT: Event-based Multi-Object Tracking with Sparse Motion Features [52.213656737672935]
SpikeMOTはイベントベースのマルチオブジェクトトラッカーである。
SpikeMOTはスパイクニューラルネットワークを使用して、オブジェクトに関連するイベントストリームからスパーステンポラルな特徴を抽出する。
論文 参考訳(メタデータ) (2023-09-29T05:13:43Z) - HiNoVa: A Novel Open-Set Detection Method for Automating RF Device
Authentication [9.571774189070531]
本稿では,畳み込みニューラルネットワーク(CNN)長短期記憶(LSTM)モデルにおける隠れ状態値のパターンに基づいた,新しいオープンセット検出手法を提案する。
我々のアプローチはLoRa、Wi-Fi、Wired-WiFiデータセットの精度-リコール曲線の領域を大幅に改善する。
論文 参考訳(メタデータ) (2023-05-16T16:47:02Z) - WiFi-based Spatiotemporal Human Action Perception [53.41825941088989]
SNN(End-to-end WiFi signal Neural Network)は、Wi-Fiのみのセンシングを可能にするために提案されている。
特に、3D畳み込みモジュールはWiFi信号の時間的連続性を探索することができ、特徴自己保持モジュールは支配的な特徴を明示的に維持することができる。
論文 参考訳(メタデータ) (2022-06-20T16:03:45Z) - Federated Deep Learning Meets Autonomous Vehicle Perception: Design and
Verification [168.67190934250868]
フェデレーテッド・ラーニング・パワード・コネクテッド・オートモービル(FLCAV)が提案されている。
FLCAVは通信とアノテーションのコストを削減しながらプライバシを保存する。
マルチステージトレーニングのためのネットワークリソースと道路センサのポーズを決定することは困難である。
論文 参考訳(メタデータ) (2022-06-03T23:55:45Z) - Robust Semi-supervised Federated Learning for Images Automatic
Recognition in Internet of Drones [57.468730437381076]
プライバシー保護型UAV画像認識のための半教師付きフェデレートラーニング(SSFL)フレームワークを提案する。
異なるカメラモジュールを使用したUAVによって収集されたローカルデータの数、特徴、分布には大きな違いがある。
本稿では,クライアントがトレーニングに参加する頻度,すなわちFedFreqアグリゲーションルールに基づくアグリゲーションルールを提案する。
論文 参考訳(メタデータ) (2022-01-03T16:49:33Z) - Multi-Band Wi-Fi Sensing with Matched Feature Granularity [37.40429912751046]
サブ6GHzの細粒度CSIと60GHzの中粒度ビームSNRの両方の特徴を階層的に融合するWi-Fiセンサ用マルチバンドWi-Fi融合法を提案する。
ラベル付きトレーニングデータの制限に対処するため,教師なしで事前学習可能なオートエンコーダベースのマルチバンドWi-Fi融合ネットワークを提案する。
論文 参考訳(メタデータ) (2021-12-28T05:50:58Z) - Unsupervised Person Re-Identification with Wireless Positioning under
Weak Scene Labeling [131.18390399368997]
本稿では、弱いシーンラベリングの下で、視覚データと無線位置決めトラジェクトリの両方を用いて、教師なしの人物再識別を探索することを提案する。
具体的には、視覚データと無線情報の相補性をモデル化した、新しい教師なしマルチモーダルトレーニングフレームワーク(UMTF)を提案する。
我々のUMTFには、MMDA(Multimodal Data Association Strategy)とMMGN(Multimodal Graph Neural Network)が含まれている。
論文 参考訳(メタデータ) (2021-10-29T08:25:44Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z) - Federated Self-Supervised Learning of Multi-Sensor Representations for
Embedded Intelligence [8.110949636804772]
スマートフォン、ウェアラブル、IoT(Internet of Things)デバイスは、教師付きモデルを学習するための集中リポジトリに蓄積できない豊富なデータを生成する。
本稿では,ウェーブレット変換に基づくテキストカルグラム・信号対応学習という自己教師付きアプローチを提案し,ラベルなしセンサ入力から有用な表現を学習する。
さまざまなパブリックデータセットのマルチビュー戦略を用いて,学習機能の品質を広範囲に評価し,すべての領域で高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2020-07-25T21:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。