論文の概要: ACT360: An Efficient 360-Degree Action Detection and Summarization Framework for Mission-Critical Training and Debriefing
- arxiv url: http://arxiv.org/abs/2503.12852v1
- Date: Mon, 17 Mar 2025 06:12:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:29:07.545949
- Title: ACT360: An Efficient 360-Degree Action Detection and Summarization Framework for Mission-Critical Training and Debriefing
- Title(参考訳): ACT360: ミッションクリティカルトレーニング・デブリーフィングのための効率的な360度アクション検出・要約フレームワーク
- Authors: Aditi Tiwari, Klara Nahrstedt,
- Abstract要約: ACT360は、360度ビデオと機械学習を利用して、自動アクション検出と構造化リーフを行うシステムである。
ACT360は、拡張されたYou Only Watch Once (YOWO)モデルである360YOWOを統合し、空間的注意と等方形認識畳み込み(EAC)によりパノラマビデオの歪みを緩和する。
55のラベル付き360度ビデオの公開データセットに対して,我々のアプローチを検証した。
- 参考スコア(独自算出の注目度): 3.781421673607643
- License:
- Abstract: Effective training and debriefing are critical in high-stakes, mission-critical environments such as disaster response, military simulations, and industrial safety, where precision and minimizing errors are paramount. The traditional post-training analysis relies on manually reviewing 2D videos, a time-consuming process that lacks comprehensive situational awareness. To address these limitations, we introduce ACT360, a system that leverages 360-degree videos and machine learning for automated action detection and structured debriefing. ACT360 integrates 360YOWO, an enhanced You Only Watch Once (YOWO) model with spatial attention and equirectangular-aware convolution (EAC) to mitigate panoramic video distortions. To enable deployment in resource-constrained environments, we apply quantization and model pruning, reducing the model size by 74% while maintaining robust accuracy (mAP drop of only 1.5%, from 0.865 to 0.850) and improving inference speed. We validate our approach on a publicly available dataset of 55 labeled 360-degree videos covering seven key operational actions, recorded across various real-world training sessions and environmental conditions. Additionally, ACT360 integrates 360AIE (Action Insight Explorer), a web-based interface for automatic action detection, retrieval, and textual summarization using large language models (LLMs), significantly enhancing post-incident analysis efficiency. ACT360 serves as a generalized framework for mission-critical debriefing, incorporating EAC, spatial attention, summarization, and model optimization. These innovations apply to any training environment requiring lightweight action detection and structured post-exercise analysis.
- Abstract(参考訳): 効果的な訓練と省力化は、災害対応、軍事シミュレーション、産業安全などのミッションクリティカルな環境において重要であり、精度と誤りの最小化が最重要である。
従来のポストトレーニング分析は、総合的な状況認識に欠ける時間を要する2D動画を手作業でレビューすることに依存している。
これらの制限に対処するため、ACT360は360度ビデオと機械学習を利用して自動アクション検出と構造化デリゲートを行うシステムである。
ACT360は、拡張されたYou Only Watch Once (YOWO)モデルである360YOWOを統合し、空間的注意と等方形認識畳み込み(EAC)によりパノラマビデオの歪みを緩和する。
資源制約環境への展開を実現するため, 定量化とモデルプルーニングを適用し, モデルサイズを74%削減し, 頑健な精度(mAPドロップは1.5%, 0.865から0.850まで)を維持し, 推論速度を向上した。
実世界のトレーニングセッションと環境条件にまたがって記録された7つの主要な操作行動をカバーする55のラベル付き360度ビデオのデータセットに対して、我々のアプローチを検証した。
さらにACT360は、大規模な言語モデル(LLM)を用いた自動アクション検出、検索、テキスト要約のためのWebベースのインターフェースである360AIE(Action Insight Explorer)を統合し、事故後の分析効率を大幅に向上させる。
ACT360は、EAC、空間的注意、要約、モデル最適化を取り入れた、ミッションクリティカルな省力化のための一般化されたフレームワークとして機能する。
これらのイノベーションは、軽量なアクション検出と構造化されたポストエクササイズ分析を必要とする任意のトレーニング環境に適用できる。
関連論文リスト
- Object-Centric Latent Action Learning [70.3173534658611]
本稿では,VideoSaur と LAPO に基づくオブジェクト中心の潜在行動学習手法を提案する。
無関係な背景雑音から因果的エージェント・オブジェクトの相互作用を効果的に切り離し、トラクタによる性能劣化を低減する。
Distracting Control Suite を用いた予備実験では、オブジェクト分解に基づく遅延動作事前学習により、x2.7 による推論遅延動作の品質が向上し、ラベル付きアクションの小さなセットによる下流微調整の効率が向上し、平均 x2.6 での戻り率が向上することが示された。
論文 参考訳(メタデータ) (2025-02-13T11:27:05Z) - INTACT: Inducing Noise Tolerance through Adversarial Curriculum Training for LiDAR-based Safety-Critical Perception and Autonomy [0.4124847249415279]
本稿では、雑音の多いLiDARデータに対するディープニューラルネットワーク(DNN)の堅牢性を高めるために設計された新しいフレームワークを提案する。
IntACTは、メタラーニングと、敵対的なカリキュラムトレーニング(ACT)を組み合わせることで、3Dポイントクラウドにおけるデータの破損とスパーシリティによる課題に対処する。
IntACTの有効性は、オブジェクトの検出、追跡、分類ベンチマークに関する包括的な評価を通じて実証される。
論文 参考訳(メタデータ) (2025-02-04T00:02:16Z) - Text-driven Online Action Detection [0.0]
ゼロショットおよび少数ショット学習をサポートするテキスト駆動型オンラインアクション検出アーキテクチャであるTOADを紹介する。
我々のモデルはTHUMOS14データセット上で82.46%のmAPを達成し、既存の手法よりも優れています。
論文 参考訳(メタデータ) (2025-01-23T10:06:52Z) - Efficient Detection Framework Adaptation for Edge Computing: A Plug-and-play Neural Network Toolbox Enabling Edge Deployment [59.61554561979589]
エッジコンピューティングは、時間に敏感なシナリオでディープラーニングベースのオブジェクト検出をデプロイするための重要なパラダイムとして登場した。
既存のエッジ検出手法では、軽量モデルによる検出精度のバランスの難しさ、適応性の制限、現実の検証の不十分といった課題に直面している。
本稿では,汎用的なプラグイン・アンド・プレイコンポーネントを用いてエッジ環境にオブジェクト検出モデルを適用するエッジ検出ツールボックス(ED-TOOLBOX)を提案する。
論文 参考訳(メタデータ) (2024-12-24T07:28:10Z) - Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - ActNetFormer: Transformer-ResNet Hybrid Method for Semi-Supervised Action Recognition in Videos [4.736059095502584]
本研究は,半教師付き行動認識のためのコントラスト学習を用いたクロスアーキテクチャ擬似ラベルを用いた新しい手法を提案する。
本稿では,3次元畳み込みニューラルネットワーク(3D CNN)とビデオトランスフォーマー(VIT)を用いて,アクション表現の異なる側面を捉える,新しいクロスアーキテクチャ手法を提案する。
論文 参考訳(メタデータ) (2024-04-09T12:09:56Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z) - For SALE: State-Action Representation Learning for Deep Reinforcement
Learning [60.42044715596703]
SALEは、状態と行動の間のニュアンスな相互作用をモデル化する埋め込みを学ぶための新しいアプローチである。
我々は、SALEとRLのチェックポイントをTD3に統合し、TD7アルゴリズムを構成する。
OpenAIのジムのベンチマークタスクでは、TD7は平均276.7%、TD3よりも50.7%、それぞれ300k、500Mのタイムステップでパフォーマンスが向上している。
論文 参考訳(メタデータ) (2023-06-04T19:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。