論文の概要: Learning Transferable Sensor Models via Language-Informed Pretraining
- arxiv url: http://arxiv.org/abs/2603.11950v1
- Date: Thu, 12 Mar 2026 13:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.127872
- Title: Learning Transferable Sensor Models via Language-Informed Pretraining
- Title(参考訳): 言語インフォームド事前学習による伝達型センサモデルの学習
- Authors: Yuliang Chen, Arvind Pillai, Yu Yvonne Wu, Tess Z. Griffin, Lisa Marsch, Michael V. Heinz, Nicholas C. Jacobson, Andrew Campbell,
- Abstract要約: textbfSLIPは、さまざまなセンサー設定にまたがって一般化される言語対応表現を学習するためのオープンソースのフレームワークである。
SLIPはセンサ条件のキャプションとコントラストアライメントを統合し、識別的理解と生成的推論の両方を容易にする。
11データセットにわたって、SLIPはゼロショット転送、信号キャプション、質問応答において優れた性能を示す。
- 参考スコア(独自算出の注目度): 4.764303199378882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern sensing systems generate large volumes of unlabeled multivariate time-series data. This abundance of unlabeled data makes self-supervised learning (SSL) a natural approach for learning transferable representations. However, most existing approaches are optimized for reconstruction or forecasting objectives and often fail to capture the semantic structure required for downstream classification and reasoning tasks. While recent sensor-language alignment methods improve semantic generalization through captioning and zero-shot transfer, they are limited to fixed sensor configurations, such as predefined channel sets, signal lengths, or temporal resolutions, which hinders cross-domain applicability. To address these gaps, we introduce \textbf{SLIP} (\textbf{S}ensor \textbf{L}anguage-\textbf{I}nformed \textbf{P}retraining), an open-source framework for learning language-aligned representations that generalize across diverse sensor setups. SLIP integrates contrastive alignment with sensor-conditioned captioning, facilitating both discriminative understanding and generative reasoning. By repurposing a pretrained decoder-only language model via cross-attention and introducing an elegant, flexible patch-embedder, SLIP supports different temporal resolutions and variable-length input at inference time without additional retraining. Across 11 datasets, SLIP demonstrates superior performance in zero-shot transfer, signal captioning, and question answering. It achieves a 77.14% average linear-probing accuracy, a 5.93% relative improvement over strong baselines, and reaches 64.83% accuracy in sensor-based question answering.
- Abstract(参考訳): 現代のセンシングシステムは、ラベルのない多変量時系列データを大量に生成する。
このラベルなしデータの豊富さは、自己教師付き学習(SSL)を、転送可能な表現を学習するための自然なアプローチにする。
しかし、既存のほとんどのアプローチは、再構築や予測の目的のために最適化されており、下流の分類や推論タスクに必要な意味的構造を捉えるのに失敗することが多い。
最近のセンサ言語アライメント手法は、キャプションやゼロショット転送によるセマンティック一般化を改善するが、事前に定義されたチャネルセット、信号長、時間分解能などの固定されたセンサー構成に限定されており、ドメイン間の適用性を妨げている。
これらのギャップに対処するために,さまざまなセンサ設定にまたがる言語対応表現を学習するための,オープンソースのフレームワークである \textbf{SLIP} (\textbf{S}ensor \textbf{L}anguage-\textbf{I}nformed \textbf{P}retraining) を紹介した。
SLIPはセンサ条件のキャプションとコントラストアライメントを統合し、識別的理解と生成的推論の両方を容易にする。
クロスアテンションにより事前訓練されたデコーダのみの言語モデルを再取得し、エレガントで柔軟なパッチ埋め込みを導入することにより、SLIPは追加のリトレーニングなしで異なる時間解像度と可変長入力をサポートする。
11データセットにわたって、SLIPはゼロショット転送、信号キャプション、質問応答において優れた性能を示す。
平均線形探索精度77.14%、強いベースラインに対する相対的な改善5.93%、センサーベースの質問応答では64.83%に達する。
関連論文リスト
- Unifying Heterogeneous Multi-Modal Remote Sensing Detection Via Language-Pivoted Pretraining [59.2578488860426]
不均一なマルチモーダルリモートセンシングオブジェクト検出は、多様なセンサからオブジェクトを正確に検出することを目的としている。
既存のアプローチでは、下流の微調整中にモーダリティアライメントとタスク固有の最適化が絡み合う遅延アライメントパラダイムが採用されている。
本稿では,下流のタスク学習からモダリティアライメントを明確に分離する,統一型言語パイロット事前学習フレームワークであるBabelRSを提案する。
論文 参考訳(メタデータ) (2026-03-02T11:38:12Z) - Steering Vision-Language Pre-trained Models for Incremental Face Presentation Attack Detection [62.89126207012712]
顔提示攻撃検出(PAD)は、スプーフィング戦術やドメインと戦うために漸進的な学習を要求する。
過去のデータ保持を禁止し、リハーサルフリーラーニング(RF-IL)を必要とするプライバシー規制
論文 参考訳(メタデータ) (2025-12-22T04:30:11Z) - Few-Shot Remote Sensing Image Scene Classification with CLIP and Prompt Learning [0.9558392439655014]
我々は,数ショットのリモートセンシング画像シーン分類のための軽量かつ効率的な適応戦略として,即時学習を探求する。
これらのプロンプト学習手法を,手作りプロンプトを用いたゼロショットCLIPと,凍結したCLIPの特徴を訓練した線形プローブの2つの標準ベースラインに対してベンチマークした。
我々の研究結果は、衛星画像と空中画像の領域ギャップを埋めるスケーラブルで効率的な方法として、迅速な学習を裏付けている。
論文 参考訳(メタデータ) (2025-10-28T11:39:22Z) - AutoSign: Direct Pose-to-Text Translation for Continuous Sign Language Recognition [0.0]
聴覚障害者コミュニティと聴覚障害者コミュニティのギャップを埋める上で,サインジェスチャを連続的に認識し,それらをグロースに変換することが重要な役割を担っている。
ポーズ列を直接自然言語テキストに変換する自動回帰デコーダのみの変換器であるAutoSignを提案する。
マルチステージパイプラインを削除することで、AutoSignはIsharah-1000データセットを大幅に改善した。
論文 参考訳(メタデータ) (2025-07-26T07:28:33Z) - VoxelOpt: Voxel-Adaptive Message Passing for Discrete Optimization in Deformable Abdominal CT Registration [15.78340001680369]
離散最適化に基づく変形可能な画像登録フレームワークであるVoxelOptを提案する。
学習ベースの長所と反復的手法を組み合わせて、登録精度と実行時のバランスを改善する。
腹部CTの登録では、これらの変更により、VoxelOptは、ラベルの監督によって訓練された最先端の学習ベースの手法と一致しながら、効率と正確性の両方において、リード反復性を上回っている。
論文 参考訳(メタデータ) (2025-06-24T19:44:04Z) - StgcDiff: Spatial-Temporal Graph Condition Diffusion for Sign Language Transition Generation [33.695308849489784]
離散符号間のスムーズな遷移を生成するグラフベースの条件拡散フレームワークStgcDiffを提案する。
具体的には、エンコーダ・デコーダアーキテクチャをトレーニングし、空間的時間的骨格の構造認識表現を学習する。
我々は,その空間的特徴を効果的にモデル化する,Sign-GCNモジュールをフレームワークのキーコンポーネントとして設計する。
論文 参考訳(メタデータ) (2025-06-16T07:09:51Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Spatial-Temporal-Spectral Unified Modeling for Remote Sensing Dense Prediction [20.1863553357121]
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。
本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。
STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。
様々な密集した予測タスクと多様な意味クラス予測を統一する。
論文 参考訳(メタデータ) (2025-05-18T07:39:17Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。