Fugu-MT 論文翻訳(概要): Learning Cross-Joint Attention for Generalizable Video-Based Seizure Detection

論文の概要: Learning Cross-Joint Attention for Generalizable Video-Based Seizure Detection

arxiv url: http://arxiv.org/abs/2603.23757v1
Date: Tue, 24 Mar 2026 22:30:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-26 21:06:11.045658
Title: Learning Cross-Joint Attention for Generalizable Video-Based Seizure Detection
Title（参考訳）: 一般化可能なビデオベースシーズーア検出のためのクロスラインアテンションの学習
Authors: Omar Zamzam, Takfarinas Medani, Chinmay Chinara, Richard Leahy,
Abstract要約: 本稿では,物体間の一般化を改善するために,身体力学にのみ焦点をあてた共同注目モデルを提案する。提案手法は, 最先端CNN, グラフ, トランスフォーマーに基づく非表示対象に対するアプローチを一貫して上回ることを示す。
参考スコア（独自算出の注目度）: 1.276922410213847
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automated seizure detection from long-term clinical videos can substantially reduce manual review time and enable real-time monitoring. However, existing video-based methods often struggle to generalize to unseen subjects due to background bias and reliance on subject-specific appearance cues. We propose a joint-centric attention model that focuses exclusively on body dynamics to improve cross-subject generalization. For each video segment, body joints are detected and joint-centered clips are extracted, suppressing background context. These joint-centered clips are tokenized using a Video Vision Transformer (ViViT), and cross-joint attention is learned to model spatial and temporal interactions between body parts, capturing coordinated movement patterns characteristic of seizure semiology. Extensive cross-subject experiments show that the proposed method consistently outperforms state-of-the-art CNN-, graph-, and transformer-based approaches on unseen subjects.
Abstract（参考訳）: 長期臨床ビデオからの自動発作検出は、手動によるレビュー時間を大幅に短縮し、リアルタイムモニタリングを可能にする。しかし、既存のビデオベースの手法は、背景バイアスや被写体特有の外観に頼っているため、見えない被写体への一般化に苦慮することが多い。本稿では,物体間の一般化を改善するために,身体力学にのみ焦点をあてた共同注目モデルを提案する。各ビデオセグメントに対して、ボディジョイントを検出し、ジョイント中心クリップを抽出し、背景コンテキストを抑圧する。これらの共同中心クリップは、ビデオビジョン変換器(ViViT)を用いてトークン化され、クロスジョイントアテンションは、身体部分間の空間的および時間的相互作用をモデル化し、発作セミロジーの特徴となる協調的な動きパターンをキャプチャする。大規模なクロスオブジェクト実験により, 提案手法は, 最先端CNN, グラフ, トランスフォーマーベースのアプローチを, 目立たない対象に対して一貫して上回っていることがわかった。

関連論文リスト

Training-free Temporal Object Tracking in Surgical Videos [20.689670966095097]
腹腔鏡下胆嚢摘出術(LC)手術ビデオにおけるオンライン物体追跡のための新しいアプローチを提案する。提案手法は,既存のデータセットに固有の,コストの高いピクセルレベルのアノテーションとラベルの不整合の課題に対処する。
論文参考訳（メタデータ） (2026-03-08T23:09:16Z)
Dynamic Erasing Network Based on Multi-Scale Temporal Features for Weakly Supervised Video Anomaly Detection [103.92970668001277]
弱教師付きビデオ異常検出のための動的消去ネットワーク(DE-Net)を提案する。まず,異なる長さのセグメントから特徴を抽出できるマルチスケール時間モデリングモジュールを提案する。そして,検出された異常の完全性を動的に評価する動的消去戦略を設計する。
論文参考訳（メタデータ） (2023-12-04T09:40:11Z)
Holistic Representation Learning for Multitask Trajectory Anomaly Detection [65.72942351514956]
そこで本研究では,異なる時間帯における骨格軌跡の包括的表現による予測運動の学習を提案する。我々は、時間的閉鎖された軌道を符号化し、ブロックされたセグメントの潜在表現を共同学習し、異なる時間的セグメントにわたる期待運動に基づいて軌道を再構築する。
論文参考訳（メタデータ） (2023-11-03T11:32:53Z)
Latent Spatiotemporal Adaptation for Generalized Face Forgery Video Detection [22.536129731902783]
顔画像の一般的な検出を容易にするためのLatemporal Spatio(LAST)アプローチを提案する。まず、各フレームの局所的な空間的特徴を抽出するために、軽量CNNを組み込むことで、ビデオの時間的パターンをモデル化する。次に、静止空間ビデオの長期的表現を学習し、画素空間よりも多くの手がかりを含むべきである。
論文参考訳（メタデータ） (2023-09-09T13:40:44Z)
Video Salient Object Detection via Contrastive Features and Attention Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文参考訳（メタデータ） (2021-11-03T17:40:32Z)
Weakly Supervised Human-Object Interaction Detection in Video via Contrastive Spatiotemporal Regions [81.88294320397826]
システムは、ビデオに人間と物体の相互作用が存在するか、あるいは人間と物体の実際の位置を知らない。文節から収集した人-物間相互作用による6.5k以上のビデオからなるデータセットを提案する。ビデオデータセットのアノテーションに適応した弱教師付きベースラインの性能向上を実証した。
論文参考訳（メタデータ） (2021-10-07T15:30:18Z)
Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文参考訳（メタデータ） (2021-10-05T15:39:11Z)
Spatial-Temporal Correlation and Topology Learning for Person Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。 CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文参考訳（メタデータ） (2021-04-15T14:32:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。