論文の概要: SlotFM: A Motion Foundation Model with Slot Attention for Diverse Downstream Tasks
- arxiv url: http://arxiv.org/abs/2509.21673v1
- Date: Thu, 25 Sep 2025 22:41:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.064648
- Title: SlotFM: A Motion Foundation Model with Slot Attention for Diverse Downstream Tasks
- Title(参考訳): SlotFM: ダウンストリームタスクに対するスロットアテンション付きモーションファンデーションモデル
- Authors: Junyong Park, Oron Levy, Rebecca Adaimi, Asaf Liberman, Gierad Laput, Abdelkareem Bedri,
- Abstract要約: 本稿では,様々な下流タスクを一般化した加速度センサ基礎モデルであるSlotFMを提案する。
我々はSlotFMを、標準的な人間の活動認識を超えた16の分類と回帰ダウンストリームタスクで評価した。
- 参考スコア(独自算出の注目度): 2.0906347671401018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wearable accelerometers are used for a wide range of applications, such as gesture recognition, gait analysis, and sports monitoring. Yet most existing foundation models focus primarily on classifying common daily activities such as locomotion and exercise, limiting their applicability to the broader range of tasks that rely on other signal characteristics. We present SlotFM, an accelerometer foundation model that generalizes across diverse downstream tasks. SlotFM uses Time-Frequency Slot Attention, an extension of Slot Attention that processes both time and frequency representations of the raw signals. It generates multiple small embeddings (slots), each capturing different signal components, enabling task-specific heads to focus on the most relevant parts of the data. We also introduce two loss regularizers that capture local structure and frequency patterns, which improve reconstruction of fine-grained details and helps the embeddings preserve task-relevant information. We evaluate SlotFM on 16 classification and regression downstream tasks that extend beyond standard human activity recognition. It outperforms existing self-supervised approaches on 13 of these tasks and achieves comparable results to the best performing approaches on the remaining tasks. On average, our method yields a 4.5% performance gain, demonstrating strong generalization for sensing foundation models.
- Abstract(参考訳): ウェアラブル加速度計はジェスチャー認識、歩行分析、スポーツモニタリングなど幅広い用途に用いられている。
しかし、既存の基盤モデルのほとんどは、移動や運動といった日常的な活動の分類に重点を置いており、その適用性は他の信号特性に依存する幅広いタスクに限定している。
本稿では,様々な下流タスクを一般化する加速度センサ基礎モデルであるSlotFMを提案する。
SlotFMは、生信号の時間と周波数の表現を処理するSlot Attentionの拡張であるTime-Frequency Slot Attentionを使用する。
複数の小さな埋め込み(スロット)を生成し、それぞれ異なる信号成分をキャプチャし、タスク固有のヘッドがデータの最も関連性の高い部分に集中できるようにする。
また、局所構造と周波数パターンを捉える2つの損失正規化器を導入し、細粒度の再現を改善し、タスク関連情報の埋め込みを支援する。
我々はSlotFMを、標準的な人間の活動認識を超えた16の分類と回帰ダウンストリームタスクで評価した。
13のタスクにおいて、既存の自己監督的なアプローチよりも優れており、残りのタスクにおいて最高のパフォーマンスのアプローチに匹敵する結果が得られる。
提案手法は平均4.5%の性能向上を達成し,センサ基礎モデルに対する強力な一般化を実証する。
関連論文リスト
- RefAM: Attention Magnets for Zero-Shot Referral Segmentation [103.98022860792504]
本稿では,下流タスクの拡散変換器から特徴,注意点を活用できる新しい手法を提案する。
重要な洞察は、停止語は注意磁石として機能するということだ。
停止語を付加した背景アクティベーションを小さなクラスタに分割するアテンション再分配戦略を提案する。
論文 参考訳(メタデータ) (2025-09-26T17:59:57Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - FDDet: Frequency-Decoupling for Boundary Refinement in Temporal Action Detection [4.015022008487465]
大規模な事前訓練されたビデオエンコーダは、背景の乱雑さと無関係なセマンティクスを導入し、コンテキストの混乱と境界に繋がる。
本稿では,事前学習したモデルから得られた雑音のセマンティクスをフィルタリングすることで,行動識別性を向上させる周波数対応デカップリングネットワークを提案する。
本手法は時間的行動検出ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-01T10:57:37Z) - Probing Fine-Grained Action Understanding and Cross-View Generalization of Foundation Models [13.972809192907931]
ファンデーションモデル(FM)は、広いデータセットでトレーニングされた大規模なニューラルネットワークである。
ビデオにおける人間の活動認識は、異なるアーキテクチャ間の競争によって駆動されるFMによって進歩している。
本稿では,視線変化が人体活動認識の微粒化における異なるFMに与える影響を実験的に評価する。
論文 参考訳(メタデータ) (2024-07-22T12:59:57Z) - XTrack: Multimodal Training Boosts RGB-X Video Object Trackers [88.72203975896558]
マルチモーダルセンシングから得られる知識を効果的に共有することが重要である。
異なるモダリティにまたがる類似のサンプルは、他のものよりも多くの知識を共有できる。
提案手法は,現在のSOTAよりも平均+3%精度が向上したRGB-Xトラッカーである。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z) - Sequence-to-Sequence Modeling for Action Identification at High Temporal
Resolution [9.902223920743872]
高時間分解能でラベル付けされた微妙な短時間動作を含む新しい行動認識ベンチマークを導入する。
セグメント化に基づく現在の最先端モデルでは,これらのデータに適用した場合,ノイズの予測が可能であることを示す。
本稿では,音声認識技術に触発された高精度な行動識別手法を提案する。
論文 参考訳(メタデータ) (2021-11-03T21:06:36Z) - Learnable Multi-level Frequency Decomposition and Hierarchical Attention
Mechanism for Generalized Face Presentation Attack Detection [7.324459578044212]
顔提示攻撃検知(PAD)は多くの注目を集めており、顔認識システムを保護する上で重要な役割を果たしている。
両ストリーム畳み込みニューラルネットワーク(CNN)フレームワークを提案する。
ステップワイドアブレーション研究において提案したPAD法の設計を実証した。
論文 参考訳(メタデータ) (2021-09-16T13:06:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。