論文の概要: ViFiT: Reconstructing Vision Trajectories from IMU and Wi-Fi Fine Time
Measurements
- arxiv url: http://arxiv.org/abs/2310.03140v1
- Date: Wed, 4 Oct 2023 20:05:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 20:19:44.521120
- Title: ViFiT: Reconstructing Vision Trajectories from IMU and Wi-Fi Fine Time
Measurements
- Title(参考訳): ViFiT: IMUとWi-Fiファインタイム計測による視線軌道再構成
- Authors: Bryan Bo Cao, Abrar Alali, Hansi Liu, Nicholas Meegan, Marco Gruteser,
Kristin Dana, Ashwin Ashok, Shubham Jain
- Abstract要約: 携帯電話データ(IMUおよびファインタイム計測)から視界境界ボックス軌道を再構成するトランスフォーマーベースモデルViFiTを提案する。
ViFiTは0.65のMRFRを達成し、LSTM-Decoderアーキテクチャにおけるクロスモーダル再構築の最先端のアプローチより優れている。
- 参考スコア(独自算出の注目度): 6.632056181867312
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Tracking subjects in videos is one of the most widely used functions in
camera-based IoT applications such as security surveillance, smart city traffic
safety enhancement, vehicle to pedestrian communication and so on. In the
computer vision domain, tracking is usually achieved by first detecting
subjects with bounding boxes, then associating detected bounding boxes across
video frames. For many IoT systems, images captured by cameras are usually sent
over the network to be processed at a different site that has more powerful
computing resources than edge devices. However, sending entire frames through
the network causes significant bandwidth consumption that may exceed the system
bandwidth constraints. To tackle this problem, we propose ViFiT, a
transformer-based model that reconstructs vision bounding box trajectories from
phone data (IMU and Fine Time Measurements). It leverages a transformer ability
of better modeling long-term time series data. ViFiT is evaluated on Vi-Fi
Dataset, a large-scale multimodal dataset in 5 diverse real world scenes,
including indoor and outdoor environments. To fill the gap of proper metrics of
jointly capturing the system characteristics of both tracking quality and video
bandwidth reduction, we propose a novel evaluation framework dubbed Minimum
Required Frames (MRF) and Minimum Required Frames Ratio (MRFR). ViFiT achieves
an MRFR of 0.65 that outperforms the state-of-the-art approach for cross-modal
reconstruction in LSTM Encoder-Decoder architecture X-Translator of 0.98,
resulting in a high frame reduction rate as 97.76%.
- Abstract(参考訳): ビデオ中の被写体追跡は、セキュリティ監視、スマートシティ交通安全強化、車両から歩行者への通信など、カメラベースのIoTアプリケーションで最も広く使われている機能のひとつだ。
コンピュータビジョン領域では、追跡は通常、被験者をまず境界ボックスで検出し、次に検出された境界ボックスをビデオフレーム間で関連付けることで達成される。
多くのIoTシステムでは、カメラによってキャプチャされた画像はネットワーク越しに送信され、エッジデバイスよりも強力なコンピューティングリソースを持つ別のサイトで処理される。
しかし、ネットワークを通してフレーム全体を送信すると、システム帯域幅の制約を超える可能性のある帯域幅消費が発生する。
この問題に対処するために,電話データ(IMUおよびFine Time Measurements)から視界境界ボックス軌道を再構成するトランスフォーマーベースモデルViFiTを提案する。
長期時系列データをより良くモデリングするトランスフォーマー機能を利用する。
ViFiTは、屋内と屋外を含む5つの現実世界のシーンで大規模なマルチモーダルデータセットであるVi-Fi Datasetで評価されている。
追従品質と映像帯域幅の低減の両方のシステム特性を共に捉えるための適切な指標のギャップを埋めるため,mrf(minimum required frames)とmrfr(minimum required frames ratio)と呼ばれる新しい評価フレームワークを提案する。
ViFiT は 0.65 のMRFRを達成し、LSTMエンコーダ・デコーダアーキテクチャ X-Translator の 0.98 のクロスモーダル再構成の最先端のアプローチを上回り、フレーム削減率は 97.76% となる。
関連論文リスト
- Unveiling the Limits of Alignment: Multi-modal Dynamic Local Fusion Network and A Benchmark for Unaligned RGBT Video Object Detection [5.068440399797739]
現在のRGB-Thermal Video Object Detection (RGBT VOD) 法は、画像レベルで手動で調整するデータに依存する。
不整合RGBTペアを扱うために設計されたMDLNet(Multi-modal Dynamic Local fusion Network)を提案する。
MDLNet と State-of-the-art (SOTA) モデルとの総合的な評価と比較を行い,MDLNet の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-16T01:06:12Z) - VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization [115.64739269488965]
VimTSは、異なるタスク間のより良い相乗効果を達成することにより、モデルの一般化能力を高める。
本研究では,コンテンツ変形場(CoDeF)アルゴリズムを利用した合成ビデオテキストデータセット(VTD-368k)を提案する。
ICDAR2015ビデオとDSText v2では,ビデオレベルのクロスドメイン適応に対して,従来のエンドツーエンドビデオスポッティング手法を超越している。
論文 参考訳(メタデータ) (2024-04-30T15:49:03Z) - Distributed Radiance Fields for Edge Video Compression and Metaverse
Integration in Autonomous Driving [13.536641570721798]
メタバースは 物理的な要素と デジタル要素を組み合わせた 仮想空間だ 没入型で接続された デジタル世界を創りだす
デジタルツイン(DT)は仮想プロトタイピング、予測などを提供する。
DTは、現実世界の幾何学、外観、ダイナミクスをキャプチャする3Dシーン再構成手法で作成することができる。
論文 参考訳(メタデータ) (2024-02-22T15:39:58Z) - Federated Multi-View Synthesizing for Metaverse [52.59476179535153]
メタバースは没入型エンターテイメント、教育、ビジネスアプリケーションを提供すると期待されている。
無線ネットワーク上のバーチャルリアリティ(VR)伝送は、データと計算集約である。
我々は,メタバースにおける無線コンテンツ配信のために,効率的な合成,記憶,通信資源を提供する,新しい多視点合成フレームワークを開発した。
論文 参考訳(メタデータ) (2023-12-18T13:51:56Z) - No-frills Temporal Video Grounding: Multi-Scale Neighboring Attention
and Zoom-in Boundary Detection [52.03562682785128]
時間的ビデオグラウンドティングは、未編集のビデオから言語クエリの時間間隔を取得することを目的としている。
テレビGにおける重要な課題は、低SNR(Semantic Noise Ratio)による低SNRの性能低下である。
本稿では,2つのコアモジュールからなる非フリーズTVGモデルを提案する。
論文 参考訳(メタデータ) (2023-07-20T04:12:10Z) - Referred by Multi-Modality: A Unified Temporal Transformer for Video
Object Segmentation [54.58405154065508]
ビデオオブジェクトセグメンテーションの参照のためのマルチモーダル統一時間変換器を提案する。
MUTRは、初めて統合されたフレームワークにより、DETRスタイルのトランスフォーマーを採用し、テキストまたはオーディオ参照によって指定されたビデオオブジェクトをセグメント化することができる。
変換器以降の高レベルの時間的相互作用に対して,異なるオブジェクト埋め込みのためのフレーム間特徴通信を行い,ビデオに沿って追跡するためのオブジェクトワイズ対応の改善に寄与する。
論文 参考訳(メタデータ) (2023-05-25T17:59:47Z) - IDO-VFI: Identifying Dynamics via Optical Flow Guidance for Video Frame
Interpolation with Events [14.098949778274733]
イベントカメラは、フレーム間のダイナミクスを極めて高い時間分解能で捉えるのに最適である。
IDO-VFIというイベント・アンド・フレームベースのビデオフレーム方式を提案する。
提案手法は,Vimeo90Kデータセット上での計算時間と計算労力をそれぞれ10%と17%削減しつつ,高品質な性能を維持する。
論文 参考訳(メタデータ) (2023-05-17T13:22:21Z) - ViFiCon: Vision and Wireless Association Via Self-Supervised Contrastive
Learning [5.5232283752707785]
ViFiCon(バイフィコン)は、視覚と無線のモダリティをまたいだ同期情報を用いて、相互接続を行う自己教師型コントラスト学習方式である。
本稿では,ViFiConが高性能なビジョン・ツー・ワイヤレス・アソシエーションを実現し,どのバウンディングボックスがどのスマートフォンデバイスに対応するかを示す。
論文 参考訳(メタデータ) (2022-10-11T15:04:05Z) - Video Frame Interpolation with Transformer [55.12620857638253]
本稿では,ビデオフレーム間の長距離画素相関をモデル化するためにTransformerを利用した新しいフレームワークを提案する。
我々のネットワークは、クロススケールウィンドウが相互に相互作用する新しいウィンドウベースのアテンション機構を備えている。
論文 参考訳(メタデータ) (2022-05-15T09:30:28Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - FILM: Frame Interpolation for Large Motion [20.04001872133824]
本稿では,2つの入力画像から複数の中間フレームを合成するフレームアルゴリズムを提案する。
提案手法は,Xiph大運動ベンチマークの最先端手法より優れている。
論文 参考訳(メタデータ) (2022-02-10T08:48:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。