Fugu-MT 論文翻訳(概要): Group Relative Augmentation for Data Efficient Action Detection

論文の概要: Group Relative Augmentation for Data Efficient Action Detection

arxiv url: http://arxiv.org/abs/2507.21353v1
Date: Mon, 28 Jul 2025 21:46:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-30 17:08:55.354214
Title: Group Relative Augmentation for Data Efficient Action Detection
Title（参考訳）: データ高能率行動検出のためのグループ相対拡張
Authors: Deep Anil Patel, Iain Melvin, Zachary Izzo, Martin Renqiang Min,
Abstract要約: アクション検出にVLM(Big Video-Language Models)を適応させるには、いくつかの例が課題となっている。パラメータ係数チューニング(LoRA)と新たな学習可能な内部特徴拡張を組み合わせた効率的な適応戦略を提案する。複雑なマルチラベル・マルチパーソン動作検出データセットに対して,本手法の有効性を示す。
参考スコア（独自算出の注目度）: 11.169883977958454
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Adapting large Video-Language Models (VLMs) for action detection using only a few examples poses challenges like overfitting and the granularity mismatch between scene-level pre-training and required person-centric understanding. We propose an efficient adaptation strategy combining parameter-efficient tuning (LoRA) with a novel learnable internal feature augmentation. Applied within the frozen VLM backbone using FiLM, these augmentations generate diverse feature variations directly relevant to the task. Additionally, we introduce a group-weighted loss function that dynamically modulates the training contribution of each augmented sample based on its prediction divergence relative to the group average. This promotes robust learning by prioritizing informative yet reasonable augmentations. We demonstrate our method's effectiveness on complex multi-label, multi-person action detection datasets (AVA, MOMA), achieving strong mAP performance and showcasing significant data efficiency for adapting VLMs from limited examples.
Abstract（参考訳）: アクション検出にVLM(Big Video-Language Model)を適用すると、オーバーフィットやシーンレベルの事前トレーニングと要求される人中心の理解の粒度ミスマッチといった問題が発生する。パラメータ係数チューニング(LoRA)と新たな学習可能な内部特徴拡張を組み合わせた効率的な適応戦略を提案する。凍結したVLMバックボーンにFiLMを用いて適用すると、これらの拡張はタスクに直接関連する様々な特徴を発生させる。さらに,グループ平均に対する予測偏差に基づいて,各追加サンプルのトレーニング貢献を動的に変調するグループ重み付き損失関数を導入する。これにより、情報的かつ合理的な拡張を優先することで、堅牢な学習を促進する。本稿では, 複雑な多ラベル多人数行動検出データセット (AVA, MOMA) に対する本手法の有効性を実証し, 強力なmAP性能を実現し, 限られた例からVLMに適応するための有意なデータ効率を示す。

関連論文リスト

A Scalable Pretraining Framework for Link Prediction with Efficient Adaptation [16.82426251068573]
リンク予測(LP)は、グラフ機械学習において重要なタスクである。既存の手法は、疎結合性からの限られた監督を含む重要な課題に直面している。これらの課題に対処するためのソリューションとして,事前学習について検討する。
論文参考訳（メタデータ） (2025-08-06T17:10:31Z)
PUMA: Layer-Pruned Language Model for Efficient Unified Multimodal Retrieval with Modality-Adaptive Learning [54.73049408950049]
モーダリティ適応型学習を伴う効率的な統一マルチモーダル検索のための階層型言語モデルを提案する。本手法は,構造的,学習的両面からの統合的マルチモーダル検索を改善する。
論文参考訳（メタデータ） (2025-07-10T16:47:25Z)
Scalable Multi-Stage Influence Function for Large Language Models via Eigenvalue-Corrected Kronecker-Factored Parameterization [31.379237532476875]
事前訓練された大規模言語モデル(LLM)は、一般的に下流タスクに適応するように微調整される。本稿では,学習前データに対する微調整LDMの属性予測のための多段階影響関数を提案する。
論文参考訳（メタデータ） (2025-05-08T07:43:44Z)
USDRL: Unified Skeleton-Based Dense Representation Learning with Multi-Grained Feature Decorrelation [24.90512145836643]
本稿では,特徴デコレーションに基づく統一骨格に基づくDense Representation Learningフレームワークを提案する。我々のアプローチは現在のSOTA(State-of-the-art)アプローチよりも大幅に優れています。
論文参考訳（メタデータ） (2024-12-12T12:20:27Z)
On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文参考訳（メタデータ） (2024-10-15T13:15:50Z)
Achieving Byzantine-Resilient Federated Learning via Layer-Adaptive Sparsified Model Aggregation [7.200910949076064]
フェデレートラーニング(FL)は、複数のクライアントがローカルデータを共有せずに、協調的にモデルをトレーニングすることを可能にする。しかし、FLシステムは、悪質なモデルの更新をアップロードすることでモデルのトレーニングプロセスを妨害することを目的とした、よく設計されたByzantine攻撃に対して脆弱である。本稿では,階層的適応アグリゲーションと事前アグリゲーション・スパリフィケーションを組み合わせたLayer-Adaptive Sparsified Model Aggregation(LASA)手法を提案する。
論文参考訳（メタデータ） (2024-09-02T19:28:35Z)
Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文参考訳（メタデータ） (2024-08-21T06:48:38Z)
PREM: A Simple Yet Effective Approach for Node-Level Graph Anomaly Detection [65.24854366973794]
ノードレベルのグラフ異常検出(GAD)は、医学、ソーシャルネットワーク、eコマースなどの分野におけるグラフ構造化データから異常ノードを特定する上で重要な役割を果たす。本稿では,GADの効率を向上させるために,PREM (preprocessing and Matching) という簡単な手法を提案する。我々のアプローチは、強力な異常検出機能を維持しながら、GADを合理化し、時間とメモリ消費を削減します。
論文参考訳（メタデータ） (2023-10-18T02:59:57Z)
Aligning Data Selection with Performance: Performance-driven Reinforcement Learning for Active Learning in Object Detection [31.304039641225504]
本稿では,オブジェクト検出のための平均APガイド型アクティブラーニングについて紹介する。 MGRALは、予測されたモデル出力変化の概念を深層検知ネットワークの情報性として活用する新しいアプローチである。提案手法は,物体検出のための強化学習に基づく能動学習における新たなパラダイムを確立し,高い性能を示す。
論文参考訳（メタデータ） (2023-10-12T14:59:22Z)
ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。 ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。 ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T21:51:04Z)
Cluster-level pseudo-labelling for source-free cross-domain facial expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文参考訳（メタデータ） (2022-10-11T08:24:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。