論文の概要: LiGAR: LiDAR-Guided Hierarchical Transformer for Multi-Modal Group Activity Recognition
- arxiv url: http://arxiv.org/abs/2410.21108v2
- Date: Tue, 10 Dec 2024 05:09:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:33:44.343488
- Title: LiGAR: LiDAR-Guided Hierarchical Transformer for Multi-Modal Group Activity Recognition
- Title(参考訳): LiGAR:多モードグループアクティビティ認識のためのLiDAR誘導階層変換器
- Authors: Naga Venkata Sai Raviteja Chappa, Khoa Luu,
- Abstract要約: LiGARは、多モードグループアクティビティ認識のためのLIDAR誘導階層変換器である。
本フレームワークには,マルチスケールLIDARトランス,クロスモーダルガイドアテンション,アダプティブフュージョンモジュールが組み込まれている。
LiGARの階層アーキテクチャは、個々のアクションからシーンレベルのダイナミクスまで、さまざまな粒度のグループアクティビティをキャプチャする。
- 参考スコア(独自算出の注目度): 9.103869144049014
- License:
- Abstract: Group Activity Recognition (GAR) remains challenging in computer vision due to the complex nature of multi-agent interactions. This paper introduces LiGAR, a LIDAR-Guided Hierarchical Transformer for Multi-Modal Group Activity Recognition. LiGAR leverages LiDAR data as a structural backbone to guide the processing of visual and textual information, enabling robust handling of occlusions and complex spatial arrangements. Our framework incorporates a Multi-Scale LIDAR Transformer, Cross-Modal Guided Attention, and an Adaptive Fusion Module to integrate multi-modal data at different semantic levels effectively. LiGAR's hierarchical architecture captures group activities at various granularities, from individual actions to scene-level dynamics. Extensive experiments on the JRDB-PAR, Volleyball, and NBA datasets demonstrate LiGAR's superior performance, achieving state-of-the-art results with improvements of up to 10.6% in F1-score on JRDB-PAR and 5.9% in Mean Per Class Accuracy on the NBA dataset. Notably, LiGAR maintains high performance even when LiDAR data is unavailable during inference, showcasing its adaptability. Our ablation studies highlight the significant contributions of each component and the effectiveness of our multi-modal, multi-scale approach in advancing the field of group activity recognition.
- Abstract(参考訳): グループアクティビティ認識(GAR)は、マルチエージェントインタラクションの複雑な性質のため、コンピュータビジョンにおいて依然として困難である。
本稿では,マルチモーダルグループアクティビティ認識のためのLIDAR誘導階層変換器LiGARを紹介する。
LiGARは、LiDARデータを構造的バックボーンとして利用して、視覚情報とテキスト情報の処理をガイドし、オクルージョンと複雑な空間配置のロバストなハンドリングを可能にする。
本フレームワークでは,マルチスケールLIDARトランス,クロスモーダルガイドアテンション,アダプティブフュージョンモジュールを組み込んで,異なるセマンティックレベルでのマルチモーダルデータを効果的に統合する。
LiGARの階層アーキテクチャは、個々のアクションからシーンレベルのダイナミクスまで、さまざまな粒度のグループアクティビティをキャプチャする。
JRDB-PAR、Volleyball、NBAデータセットの大規模な実験はLiGARの優れた性能を示し、最先端の成果を達成し、JRDB-PARのF1スコアは最大10.6%、NBAデータセットの平均クラス精度は5.9%向上した。
特にLiGARは、推論中にLiDARデータが利用できない場合でも高いパフォーマンスを維持し、その適応性を示している。
我々のアブレーション研究は、グループ活動認識の分野を前進させる上で、各コンポーネントの意義と、マルチモーダル、マルチスケールアプローチの有効性を浮き彫りにしている。
関連論文リスト
- A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition [12.382193259575805]
本稿では,効率的な骨格に基づく行動認識のための多モード協調学習(MMCL)フレームワークを提案する。
MMCLフレームワークは,トレーニング期間中に多要素協調学習を行い,推論に簡潔な骨格のみを用いることで効率を向上する。
論文 参考訳(メタデータ) (2024-07-22T15:16:47Z) - Multi-Space Alignments Towards Universal LiDAR Segmentation [50.992103482269016]
M3Netはマルチタスク、マルチデータセット、マルチモダリティのLiDARセグメンテーションを実現するための1対1のフレームワークである。
まず、さまざまなシーンから異なるタイプのセンサーによって取得された大規模な運転データセットを組み合わせる。
次に、トレーニング中にデータ、特徴、ラベル空間という3つの空間でアライメントを行います。
論文 参考訳(メタデータ) (2024-05-02T17:59:57Z) - Utilizing Contextual Clues and Role Correlations for Enhancing Document-level Event Argument Extraction [14.684710634595866]
文書レベルのイベント引数抽出は,情報抽出分野において重要な課題である。
本稿では、CARLGという新しいフレームワークを紹介し、CCA(Contextual Clues Aggregation)とRLIG(Role-based Latent Information Guidance)の2つの革新的なコンポーネントについて紹介する。
次に、CARLGフレームワークを、現在の主流EAEアプローチの2つのタイプに基づいて、2つの変種にインスタンス化します。特に、我々のCARLGフレームワークは、1%未満の新しいパラメータを導入し、性能を著しく改善しています。
論文 参考訳(メタデータ) (2023-10-08T11:09:16Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - LiDARFormer: A Unified Transformer-based Multi-task Network for LiDAR
Perception [15.919789515451615]
変換器に基づく新しいLiDARマルチタスク学習パラダイムを提案する。
LiDARFormerはクロスタスクのシナジーを利用して、LiDAR知覚タスクのパフォーマンスを向上させる。
LiDARFormerは3D検出とセマンティックセグメンテーションの両方のために、大規模なnuScenesとOpenデータセットで評価されている。
論文 参考訳(メタデータ) (2023-03-21T20:52:02Z) - Benchmarking the Robustness of LiDAR Semantic Segmentation Models [78.6597530416523]
本稿では,LiDARセマンティックセグメンテーションモデルのロバスト性を,様々な汚職の下で包括的に解析することを目的とする。
本稿では,悪天候,計測ノイズ,デバイス間不一致という3つのグループで16のドメイン外LiDAR破損を特徴とするSemanticKITTI-Cというベンチマークを提案する。
我々は、単純だが効果的な修正によってロバスト性を大幅に向上させるロバストLiDARセグメンテーションモデル(RLSeg)を設計する。
論文 参考訳(メタデータ) (2023-01-03T06:47:31Z) - EfficientLPS: Efficient LiDAR Panoptic Segmentation [30.249379810530165]
我々は、LiDARポイントクラウドのセグメント化における複数の課題に対処する新しい効率的なLiDARパンオプティクスアーキテクチャを紹介します。
効率的なLPSは、拡張された幾何変換モデリング能力で符号化される新しい共有バックボーンからなる。
提案したモデルを2つの大規模LiDARデータセットでベンチマークする。
論文 参考訳(メタデータ) (2021-02-16T08:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。