論文の概要: SelaFD:Seamless Adaptation of Vision Transformer Fine-tuning for Radar-based Human Activity
- arxiv url: http://arxiv.org/abs/2502.04740v1
- Date: Fri, 07 Feb 2025 08:15:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:57:38.053969
- Title: SelaFD:Seamless Adaptation of Vision Transformer Fine-tuning for Radar-based Human Activity
- Title(参考訳): SelaFD:レーダに基づく人的活動のための視覚変換器ファインチューニングのシームレス適応
- Authors: Yijun Wang, Yong Wang, Chendong xu, Shuai Yao, Qisong Wu,
- Abstract要約: 転倒検出などの人的活動認識(HAR)は高齢化によってますます重要になっている。
本研究は,レーダベースのTime-Dopplerシグネチャを用いたHAR用ViTモデルを微調整することに焦点を当てた。
そこで本研究では,Low-Rank Adaptation (LoRA) を重み空間に微調整することで,事前学習したViTモデルからの知識伝達を容易にする手法を提案する。
- 参考スコア(独自算出の注目度): 7.805419751463288
- License:
- Abstract: Human Activity Recognition (HAR) such as fall detection has become increasingly critical due to the aging population, necessitating effective monitoring systems to prevent serious injuries and fatalities associated with falls. This study focuses on fine-tuning the Vision Transformer (ViT) model specifically for HAR using radar-based Time-Doppler signatures. Unlike traditional image datasets, these signals present unique challenges due to their non-visual nature and the high degree of similarity among various activities. Directly fine-tuning the ViT with all parameters proves suboptimal for this application. To address this challenge, we propose a novel approach that employs Low-Rank Adaptation (LoRA) fine-tuning in the weight space to facilitate knowledge transfer from pre-trained ViT models. Additionally, to extract fine-grained features, we enhance feature representation through the integration of a serial-parallel adapter in the feature space. Our innovative joint fine-tuning method, tailored for radar-based Time-Doppler signatures, significantly improves HAR accuracy, surpassing existing state-of-the-art methodologies in this domain. Our code is released at https://github.com/wangyijunlyy/SelaFD.
- Abstract(参考訳): 転倒検出などの人的活動認識(HAR)は、高齢化や、転倒に伴う重傷や致命的死亡を防ぐための効果的な監視システムを必要とするため、ますます重要になっている。
本研究は,レーダベースのTime-Dopplerシグネチャを用いたHAR用ViTモデルを微調整することに焦点を当てた。
従来の画像データセットとは異なり、これらの信号は視覚的でない性質と様々な活動における高い類似性のため、ユニークな課題を示す。
すべてのパラメータでViTを直接微調整することは、このアプリケーションに最適であることを示す。
この課題に対処するため、我々は、事前訓練されたViTモデルからの知識伝達を容易にするために、重量空間におけるLow-Rank Adaptation (LoRA)ファインチューニングを用いた新しいアプローチを提案する。
さらに,細かな特徴を抽出するために,特徴空間におけるシリアルパラレルアダプタの統合により特徴表現を強化する。
レーダをベースとしたTime-Dopplerシグネチャに適した,革新的な共同微調整手法により,HARの精度が向上し,既存の最先端の手法よりも向上した。
私たちのコードはhttps://github.com/wangyijunlyy/SelaFD.comで公開されています。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - radarODE-MTL: A Multi-Task Learning Framework with Eccentric Gradient Alignment for Robust Radar-Based ECG Reconstruction [13.124543736214921]
この作業は、レーダーによるECG回復を創造的に3つの個別のタスクに分解する。
複数タスクの学習フレームワークであるRadarODE-MTLを提案し、一貫した雑音や突然の騒音に対する堅牢性を高める。
実験の結果,レーダノード-MTLはレーダ信号から正確なECG信号を頑健に再構成できることが示唆された。
論文 参考訳(メタデータ) (2024-10-11T09:28:09Z) - Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - Adaptively Bypassing Vision Transformer Blocks for Efficient Visual Tracking [11.361394596302334]
ABTrackは、効率的な視覚追跡のためにトランスフォーマーブロックを適応的にバイパスする適応型計算フレームワークである。
本稿では,トランスブロックをバイパスすべきかどうかを判断するBypass Decision Module (BDM)を提案する。
本稿では,各トランスブロックにおけるトークンの潜在表現の次元を小さくする,新しいViTプルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-12T09:39:18Z) - D$^2$ST-Adapter: Disentangled-and-Deformable Spatio-Temporal Adapter for Few-shot Action Recognition [60.84084172829169]
大規模な事前訓練された画像モデルに数発のアクション認識を適用することは、ロバストな特徴抽出器を学習するための効果的な戦略であることが証明されている。
D$2$ST-Adapter (Disentangled-and-Deformable Spatio-Temporal Adapter) は,アクション認識に適した新しいチューニングフレームワークである。
論文 参考訳(メタデータ) (2023-12-03T15:40:10Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - WiFi-TCN: Temporal Convolution for Human Interaction Recognition based
on WiFi signal [4.0773490083614075]
近年,Wi-Fiによる人間活動認識が注目されている。
Wi-FiベースのHARにまつわる課題は、シーンや被写体が変化するときのパフォーマンスが著しく低下することである。
本稿では,TN-AAと呼ばれる時間的畳み込みネットワークを利用した新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-21T08:37:32Z) - SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking [12.447854608181833]
本研究は、UAV追跡のための新しいサリエンシ誘導動的視覚変換器(SGDViT)を提案する。
提案手法は,クロスコリレーション操作を洗練させるために,タスク固有の新たなオブジェクト・サリエンシ・マイニング・ネットワークを設計する。
軽量な塩分フィルタリング変換器は、さらに塩分情報を洗練し、外観情報に焦点を当てる。
論文 参考訳(メタデータ) (2023-03-08T05:01:00Z) - Gaussian Radar Transformer for Semantic Segmentation in Noisy Radar Data [33.457104508061015]
シーン理解は、将来の状態予測、衝突回避、経路計画を行うために、動的環境における自律ロボットにとって不可欠である。
カメラとLiDARの認識は近年大きく進歩したが、悪天候下では限界に直面した。
マルチモーダルセンサースイートの可能性を最大限に活用するためには、レーダーセンサーは安全上の重要なタスクに不可欠であり、現在ほとんどの新しい車両に導入されている。
論文 参考訳(メタデータ) (2022-12-07T15:05:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。