論文の概要: LiGAR: LiDAR-Guided Hierarchical Transformer for Multi-Modal Group Activity Recognition
- arxiv url: http://arxiv.org/abs/2410.21108v1
- Date: Mon, 28 Oct 2024 15:11:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:22:17.794241
- Title: LiGAR: LiDAR-Guided Hierarchical Transformer for Multi-Modal Group Activity Recognition
- Title(参考訳): LiGAR:多モードグループアクティビティ認識のためのLiDAR誘導階層変換器
- Authors: Naga Venkata Sai Raviteja Chappa, Khoa Luu,
- Abstract要約: LiGARは、多モードグループアクティビティ認識のためのLIDAR誘導階層変換器である。
本フレームワークには,マルチスケールLIDARトランス,クロスモーダルガイドアテンション,アダプティブフュージョンモジュールが組み込まれている。
LiGARの階層アーキテクチャは、個々のアクションからシーンレベルのダイナミクスまで、さまざまな粒度のグループアクティビティをキャプチャする。
- 参考スコア(独自算出の注目度): 9.103869144049014
- License:
- Abstract: Group Activity Recognition (GAR) remains challenging in computer vision due to the complex nature of multi-agent interactions. This paper introduces LiGAR, a LIDAR-Guided Hierarchical Transformer for Multi-Modal Group Activity Recognition. LiGAR leverages LiDAR data as a structural backbone to guide the processing of visual and textual information, enabling robust handling of occlusions and complex spatial arrangements. Our framework incorporates a Multi-Scale LIDAR Transformer, Cross-Modal Guided Attention, and an Adaptive Fusion Module to integrate multi-modal data at different semantic levels effectively. LiGAR's hierarchical architecture captures group activities at various granularities, from individual actions to scene-level dynamics. Extensive experiments on the JRDB-PAR, Volleyball, and NBA datasets demonstrate LiGAR's superior performance, achieving state-of-the-art results with improvements of up to 10.6% in F1-score on JRDB-PAR and 5.9% in Mean Per Class Accuracy on the NBA dataset. Notably, LiGAR maintains high performance even when LiDAR data is unavailable during inference, showcasing its adaptability. Our ablation studies highlight the significant contributions of each component and the effectiveness of our multi-modal, multi-scale approach in advancing the field of group activity recognition.
- Abstract(参考訳): グループアクティビティ認識(GAR)は、マルチエージェントインタラクションの複雑な性質のため、コンピュータビジョンにおいて依然として困難である。
本稿では,マルチモーダルグループアクティビティ認識のためのLIDAR誘導階層変換器LiGARを紹介する。
LiGARは、LiDARデータを構造的バックボーンとして利用して、視覚情報とテキスト情報の処理をガイドし、オクルージョンと複雑な空間配置のロバストなハンドリングを可能にする。
本フレームワークでは,マルチスケールLIDARトランス,クロスモーダルガイドアテンション,アダプティブフュージョンモジュールを組み込んで,異なるセマンティックレベルでのマルチモーダルデータを効果的に統合する。
LiGARの階層アーキテクチャは、個々のアクションからシーンレベルのダイナミクスまで、さまざまな粒度のグループアクティビティをキャプチャする。
JRDB-PAR、Volleyball、NBAデータセットの大規模な実験はLiGARの優れた性能を示し、最先端の成果を達成し、JRDB-PARのF1スコアは最大10.6%、NBAデータセットの平均クラス精度は5.9%向上した。
特にLiGARは、推論中にLiDARデータが利用できない場合でも高いパフォーマンスを維持し、その適応性を示している。
我々のアブレーション研究は、グループ活動認識の分野を前進させる上で、各コンポーネントの意義と、マルチモーダル、マルチスケールアプローチの有効性を浮き彫りにしている。
関連論文リスト
- Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning [51.54046200512198]
Retrieval-augmented Generation (RAG) は、外部の現在の知識を大規模言語モデルに組み込むために広く利用されている。
標準的なRAGパイプラインは、クエリ書き換え、文書検索、文書フィルタリング、回答生成など、いくつかのコンポーネントから構成される。
これらの課題を克服するため,RAGパイプラインを多エージェント協調作業として,各コンポーネントをRLエージェントとして扱うことを提案する。
論文 参考訳(メタデータ) (2025-01-25T14:24:50Z) - LiMoE: Mixture of LiDAR Representation Learners from Automotive Scenes [55.33167217384738]
LiMoEは、Mixture of Experts(MoE)パラダイムをLiDARデータ表現学習に統合するフレームワークである。
我々のアプローチは3つの段階からなる: Image-to-LiDAR Pretraining, Contrastive Mixture Learning (CML), Semantic Mixture Supervision (SMS)。
論文 参考訳(メタデータ) (2025-01-07T18:59:58Z) - Band Prompting Aided SAR and Multi-Spectral Data Fusion Framework for Local Climate Zone Classification [20.71392764471532]
地域気候帯(LCZ)分類は、都市開発と地域気候の間の複雑な相互作用を理解する上で非常に重要である。
近年,LCZ分類性能を向上させるため,合成開口レーダ(SAR)とマルチスペクトルデータの統合に注目が集まっている。
本稿では、LCZ分類、すなわちBP-LCZに対して、補足データ融合フレームワークを促進させる新しいバンドを提案する。
実験結果は,提案したデータ融合フレームワークの有効性と優位性を示す。
論文 参考訳(メタデータ) (2024-12-24T07:40:07Z) - Adapting to Non-Stationary Environments: Multi-Armed Bandit Enhanced Retrieval-Augmented Generation on Knowledge Graphs [23.357843519762483]
近年の研究では、検索-拡張生成フレームワークと知識グラフを組み合わせることで、大規模言語モデルの推論能力を強力に向上することが示されている。
我々は多目的帯域拡張RAGフレームワークを導入し、多様な機能を持つ複数の検索手法をサポートする。
本手法は,定常環境下での最先端性能を達成しつつ,非定常環境でのベースライン手法を著しく向上させる。
論文 参考訳(メタデータ) (2024-12-10T15:56:03Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition [12.382193259575805]
本稿では,効率的な骨格に基づく行動認識のための多モード協調学習(MMCL)フレームワークを提案する。
MMCLフレームワークは,トレーニング期間中に多要素協調学習を行い,推論に簡潔な骨格のみを用いることで効率を向上する。
論文 参考訳(メタデータ) (2024-07-22T15:16:47Z) - Multi-Space Alignments Towards Universal LiDAR Segmentation [50.992103482269016]
M3Netはマルチタスク、マルチデータセット、マルチモダリティのLiDARセグメンテーションを実現するための1対1のフレームワークである。
まず、さまざまなシーンから異なるタイプのセンサーによって取得された大規模な運転データセットを組み合わせる。
次に、トレーニング中にデータ、特徴、ラベル空間という3つの空間でアライメントを行います。
論文 参考訳(メタデータ) (2024-05-02T17:59:57Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - LiDARFormer: A Unified Transformer-based Multi-task Network for LiDAR
Perception [15.919789515451615]
変換器に基づく新しいLiDARマルチタスク学習パラダイムを提案する。
LiDARFormerはクロスタスクのシナジーを利用して、LiDAR知覚タスクのパフォーマンスを向上させる。
LiDARFormerは3D検出とセマンティックセグメンテーションの両方のために、大規模なnuScenesとOpenデータセットで評価されている。
論文 参考訳(メタデータ) (2023-03-21T20:52:02Z) - Benchmarking the Robustness of LiDAR Semantic Segmentation Models [78.6597530416523]
本稿では,LiDARセマンティックセグメンテーションモデルのロバスト性を,様々な汚職の下で包括的に解析することを目的とする。
本稿では,悪天候,計測ノイズ,デバイス間不一致という3つのグループで16のドメイン外LiDAR破損を特徴とするSemanticKITTI-Cというベンチマークを提案する。
我々は、単純だが効果的な修正によってロバスト性を大幅に向上させるロバストLiDARセグメンテーションモデル(RLSeg)を設計する。
論文 参考訳(メタデータ) (2023-01-03T06:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。