Fugu-MT 論文翻訳(概要): LiGAR: LiDAR-Guided Hierarchical Transformer for Multi-Modal Group Activity Recognition

論文の概要: LiGAR: LiDAR-Guided Hierarchical Transformer for Multi-Modal Group Activity Recognition

arxiv url: http://arxiv.org/abs/2410.21108v2
Date: Tue, 10 Dec 2024 05:09:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-11 17:53:31.828404
Title: LiGAR: LiDAR-Guided Hierarchical Transformer for Multi-Modal Group Activity Recognition
Title（参考訳）: LiGAR:多モードグループアクティビティ認識のためのLiDAR誘導階層変換器
Authors: Naga Venkata Sai Raviteja Chappa, Khoa Luu,
Abstract要約: LiGARは、多モードグループアクティビティ認識のためのLIDAR誘導階層変換器である。本フレームワークには,マルチスケールLIDARトランス,クロスモーダルガイドアテンション,アダプティブフュージョンモジュールが組み込まれている。 LiGARの階層アーキテクチャは、個々のアクションからシーンレベルのダイナミクスまで、さまざまな粒度のグループアクティビティをキャプチャする。
参考スコア（独自算出の注目度）: 9.103869144049014
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Group Activity Recognition (GAR) remains challenging in computer vision due to the complex nature of multi-agent interactions. This paper introduces LiGAR, a LIDAR-Guided Hierarchical Transformer for Multi-Modal Group Activity Recognition. LiGAR leverages LiDAR data as a structural backbone to guide the processing of visual and textual information, enabling robust handling of occlusions and complex spatial arrangements. Our framework incorporates a Multi-Scale LIDAR Transformer, Cross-Modal Guided Attention, and an Adaptive Fusion Module to integrate multi-modal data at different semantic levels effectively. LiGAR's hierarchical architecture captures group activities at various granularities, from individual actions to scene-level dynamics. Extensive experiments on the JRDB-PAR, Volleyball, and NBA datasets demonstrate LiGAR's superior performance, achieving state-of-the-art results with improvements of up to 10.6% in F1-score on JRDB-PAR and 5.9% in Mean Per Class Accuracy on the NBA dataset. Notably, LiGAR maintains high performance even when LiDAR data is unavailable during inference, showcasing its adaptability. Our ablation studies highlight the significant contributions of each component and the effectiveness of our multi-modal, multi-scale approach in advancing the field of group activity recognition.
Abstract（参考訳）: グループアクティビティ認識(GAR)は、マルチエージェントインタラクションの複雑な性質のため、コンピュータビジョンにおいて依然として困難である。本稿では,マルチモーダルグループアクティビティ認識のためのLIDAR誘導階層変換器LiGARを紹介する。 LiGARは、LiDARデータを構造的バックボーンとして利用して、視覚情報とテキスト情報の処理をガイドし、オクルージョンと複雑な空間配置のロバストなハンドリングを可能にする。本フレームワークでは,マルチスケールLIDARトランス,クロスモーダルガイドアテンション,アダプティブフュージョンモジュールを組み込んで,異なるセマンティックレベルでのマルチモーダルデータを効果的に統合する。 LiGARの階層アーキテクチャは、個々のアクションからシーンレベルのダイナミクスまで、さまざまな粒度のグループアクティビティをキャプチャする。 JRDB-PAR、Volleyball、NBAデータセットの大規模な実験はLiGARの優れた性能を示し、最先端の成果を達成し、JRDB-PARのF1スコアは最大10.6%、NBAデータセットの平均クラス精度は5.9%向上した。特にLiGARは、推論中にLiDARデータが利用できない場合でも高いパフォーマンスを維持し、その適応性を示している。我々のアブレーション研究は、グループ活動認識の分野を前進させる上で、各コンポーネントの意義と、マルチモーダル、マルチスケールアプローチの有効性を浮き彫りにしている。

関連論文リスト

Group Relative Augmentation for Data Efficient Action Detection [11.169883977958454]
アクション検出にVLM(Big Video-Language Models)を適応させるには、いくつかの例が課題となっている。パラメータ係数チューニング(LoRA)と新たな学習可能な内部特徴拡張を組み合わせた効率的な適応戦略を提案する。複雑なマルチラベル・マルチパーソン動作検出データセットに対して,本手法の有効性を示す。
論文参考訳（メタデータ） (2025-07-28T21:46:05Z)
Single LLM, Multiple Roles: A Unified Retrieval-Augmented Generation Framework Using Role-Specific Token Optimization [64.33914369424494]
RoleRAGは、ロール固有のトークン最適化を通じて効率的なマルチタスク処理を実現する統一的なRAGフレームワークである。 RoleRAGは6つのモジュールから構成され、それぞれがRAGプロセス内で特定のサブタスクを処理する。クエリの分解を表すクエリグラフを導入し、分解状態に応じて動的に解決する。
論文参考訳（メタデータ） (2025-05-21T12:25:12Z)
Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning [51.54046200512198]
Retrieval-augmented Generation (RAG) は、外部の現在の知識を大規模言語モデルに組み込むために広く利用されている。標準的なRAGパイプラインは、クエリ書き換え、文書検索、文書フィルタリング、回答生成など、いくつかのコンポーネントから構成される。これらの課題を克服するため,RAGパイプラインを多エージェント協調作業として,各コンポーネントをRLエージェントとして扱うことを提案する。
論文参考訳（メタデータ） (2025-01-25T14:24:50Z)
LiMoE: Mixture of LiDAR Representation Learners from Automotive Scenes [55.33167217384738]
LiMoEは、Mixture of Experts(MoE)パラダイムをLiDARデータ表現学習に統合するフレームワークである。我々のアプローチは3つの段階からなる: Image-to-LiDAR Pretraining, Contrastive Mixture Learning (CML), Semantic Mixture Supervision (SMS)。
論文参考訳（メタデータ） (2025-01-07T18:59:58Z)
Band Prompting Aided SAR and Multi-Spectral Data Fusion Framework for Local Climate Zone Classification [20.71392764471532]
地域気候帯(LCZ)分類は、都市開発と地域気候の間の複雑な相互作用を理解する上で非常に重要である。近年,LCZ分類性能を向上させるため,合成開口レーダ(SAR)とマルチスペクトルデータの統合に注目が集まっている。本稿では、LCZ分類、すなわちBP-LCZに対して、補足データ融合フレームワークを促進させる新しいバンドを提案する。実験結果は,提案したデータ融合フレームワークの有効性と優位性を示す。
論文参考訳（メタデータ） (2024-12-24T07:40:07Z)
Adapting to Non-Stationary Environments: Multi-Armed Bandit Enhanced Retrieval-Augmented Generation on Knowledge Graphs [23.357843519762483]
近年の研究では、検索-拡張生成フレームワークと知識グラフを組み合わせることで、大規模言語モデルの推論能力を強力に向上することが示されている。我々は多目的帯域拡張RAGフレームワークを導入し、多様な機能を持つ複数の検索手法をサポートする。本手法は,定常環境下での最先端性能を達成しつつ,非定常環境でのベースライン手法を著しく向上させる。
論文参考訳（メタデータ） (2024-12-10T15:56:03Z)
A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文参考訳（メタデータ） (2024-08-05T23:20:32Z)
Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition [12.382193259575805]
本稿では,効率的な骨格に基づく行動認識のための多モード協調学習(MMCL)フレームワークを提案する。 MMCLフレームワークは,トレーニング期間中に多要素協調学習を行い,推論に簡潔な骨格のみを用いることで効率を向上する。
論文参考訳（メタデータ） (2024-07-22T15:16:47Z)
Multi-Space Alignments Towards Universal LiDAR Segmentation [50.992103482269016]
M3Netはマルチタスク、マルチデータセット、マルチモダリティのLiDARセグメンテーションを実現するための1対1のフレームワークである。まず、さまざまなシーンから異なるタイプのセンサーによって取得された大規模な運転データセットを組み合わせる。次に、トレーニング中にデータ、特徴、ラベル空間という3つの空間でアライメントを行います。
論文参考訳（メタデータ） (2024-05-02T17:59:57Z)
Utilizing Contextual Clues and Role Correlations for Enhancing Document-level Event Argument Extraction [14.684710634595866]
文書レベルのイベント引数抽出は,情報抽出分野において重要な課題である。本稿では、CARLGという新しいフレームワークを紹介し、CCA(Contextual Clues Aggregation)とRLIG(Role-based Latent Information Guidance)の2つの革新的なコンポーネントについて紹介する。次に、CARLGフレームワークを、現在の主流EAEアプローチの2つのタイプに基づいて、2つの変種にインスタンス化します。特に、我々のCARLGフレームワークは、1%未満の新しいパラメータを導入し、性能を著しく改善しています。
論文参考訳（メタデータ） (2023-10-08T11:09:16Z)
Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文参考訳（メタデータ） (2023-07-28T16:03:28Z)
An Efficient General-Purpose Modular Vision Model via Multi-Task Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文参考訳（メタデータ） (2023-06-29T17:59:57Z)
ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。 ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。 ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T21:51:04Z)
LiDARFormer: A Unified Transformer-based Multi-task Network for LiDAR Perception [15.919789515451615]
変換器に基づく新しいLiDARマルチタスク学習パラダイムを提案する。 LiDARFormerはクロスタスクのシナジーを利用して、LiDAR知覚タスクのパフォーマンスを向上させる。 LiDARFormerは3D検出とセマンティックセグメンテーションの両方のために、大規模なnuScenesとOpenデータセットで評価されている。
論文参考訳（メタデータ） (2023-03-21T20:52:02Z)
Benchmarking the Robustness of LiDAR Semantic Segmentation Models [78.6597530416523]
本稿では,LiDARセマンティックセグメンテーションモデルのロバスト性を,様々な汚職の下で包括的に解析することを目的とする。本稿では,悪天候,計測ノイズ,デバイス間不一致という3つのグループで16のドメイン外LiDAR破損を特徴とするSemanticKITTI-Cというベンチマークを提案する。我々は、単純だが効果的な修正によってロバスト性を大幅に向上させるロバストLiDARセグメンテーションモデル(RLSeg)を設計する。
論文参考訳（メタデータ） (2023-01-03T06:47:31Z)
EfficientLPS: Efficient LiDAR Panoptic Segmentation [30.249379810530165]
我々は、LiDARポイントクラウドのセグメント化における複数の課題に対処する新しい効率的なLiDARパンオプティクスアーキテクチャを紹介します。効率的なLPSは、拡張された幾何変換モデリング能力で符号化される新しい共有バックボーンからなる。提案したモデルを2つの大規模LiDARデータセットでベンチマークする。
論文参考訳（メタデータ） (2021-02-16T08:14:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。