論文の概要: ReMA: A Training-Free Plug-and-Play Mixing Augmentation for Video Behavior Recognition
- arxiv url: http://arxiv.org/abs/2601.00311v1
- Date: Thu, 01 Jan 2026 11:20:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.373445
- Title: ReMA: A Training-Free Plug-and-Play Mixing Augmentation for Video Behavior Recognition
- Title(参考訳): ReMA:ビデオビヘイビア認識のための学習不要なプラグインとプレイの混合強化
- Authors: Feng-Qi Cui, Jinyang Huang, Sirui Zhao, Jinglong Guo, Qifan Cai, Xin Yan, Zhi Liu,
- Abstract要約: Representation-Aware Mixing (ReMA) は,ミキシングを制御された代替プロセスとして定式化するプラグアンドプレイ拡張戦略である。
ReMAは分布制約下でクラス内混合を行い、統計的信頼性を高めながらクラス内ドリフトの無関係を抑える。
どのように、どこでミキシングが適用されるかを共同で制御することで、ReMAは、追加の監督やトレーニング可能なパラメータなしで表現を改善する。
- 参考スコア(独自算出の注目度): 11.125637599538988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video behavior recognition demands stable and discriminative representations under complex spatiotemporal variations. However, prevailing data augmentation strategies for videos remain largely perturbation-driven, often introducing uncontrolled variations that amplify non-discriminative factors, which finally weaken intra-class distributional structure and representation drift with inconsistent gains across temporal scales. To address these problems, we propose Representation-aware Mixing Augmentation (ReMA), a plug-and-play augmentation strategy that formulates mixing as a controlled replacement process to expand representations while preserving class-conditional stability. ReMA integrates two complementary mechanisms. Firstly, the Representation Alignment Mechanism (RAM) performs structured intra-class mixing under distributional alignment constraints, suppressing irrelevant intra-class drift while enhancing statistical reliability. Then, the Dynamic Selection Mechanism (DSM) generates motion-aware spatiotemporal masks to localize perturbations, guiding them away from discrimination-sensitive regions and promoting temporal coherence. By jointly controlling how and where mixing is applied, ReMA improves representation robustness without additional supervision or trainable parameters. Extensive experiments on diverse video behavior benchmarks demonstrate that ReMA consistently enhances generalization and robustness across different spatiotemporal granularities.
- Abstract(参考訳): ビデオ行動認識は、複雑な時空間変動の下で安定かつ差別的な表現を要求する。
しかし、ビデオの一般的なデータ拡張戦略は、主に摂動駆動であり、しばしば非差別的要因を増幅する制御されていないバリエーションを導入し、最終的にはクラス内分布構造を弱め、時間的スケールで不整合な利得で表現のドリフトを減少させる。
これらの問題に対処するために、制御された置換プロセスとしてミキシングを定式化し、クラス条件の安定性を維持しながら表現を拡大するプラグイン・アンド・プレイ拡張戦略であるRepresentation-Aware Mixing Augmentation (ReMA)を提案する。
ReMAは2つの相補的なメカニズムを統合する。
第一に、Representation Alignment Mechanism (RAM)は、分布的アライメント制約の下で構造化されたクラス内混合を行い、統計的信頼性を高めながら、無関係なクラス内ドリフトを抑制する。
次に、動的選択機構(DSM)は、運動認識時空間マスクを生成し、摂動を局所化し、識別に敏感な領域から誘導し、時間的コヒーレンスを促進する。
混合の方法と場所を共同で制御することで、ReMAは、追加の監督やトレーニング可能なパラメータなしで、表現の堅牢性を向上させる。
多様なビデオビヘイビアベンチマークの広範な実験により、ReMAは時空間の異なる粒度をまたいだ一般化と堅牢性を一貫して強化することを示した。
関連論文リスト
- Every Subtlety Counts: Fine-grained Person Independence Micro-Action Recognition via Distributionally Robust Optimization [36.230001277076376]
マイクロアクション認識は、心理的アセスメントと人間とコンピュータの相互作用に不可欠である。
既存の手法は現実のシナリオで失敗することが多い。
本稿では、分散ロバスト最適化の原則を取り入れた個人独立ユニバーサルマイクロアクション認識フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-25T14:54:24Z) - Learning from Heterogeneity: Generalizing Dynamic Facial Expression Recognition via Distributionally Robust Optimization [23.328511708942045]
Heterogeneity-Aware Distributional Framework (HDF) は、時間周波数モデリングを強化し、ハードサンプルによる不均衡を軽減するために設計された。
時間周波数分散アテンションモジュール(DAM)は、時間的一貫性と周波数ロバスト性の両方をキャプチャする。
適応最適化モジュール 分散対応スケーリングモジュール (DSM) は、動的に分類と対照的な損失のバランスをとるために導入された。
論文 参考訳(メタデータ) (2025-07-21T16:21:47Z) - Adaptive Spatial Augmentation for Semi-supervised Semantic Segmentation [51.645152962504056]
半教師付きセマンティックセグメンテーションでは、データ拡張は弱い一貫性の規則化フレームワークにおいて重要な役割を果たす。
空間増強はSSSSのモデルトレーニングに寄与するが,弱い面と強い面の間には一貫性のないマスクが生じる。
本稿では,各インスタンスのエントロピーに基づいて動的に拡張を調整する適応的拡張戦略を提案する。
論文 参考訳(メタデータ) (2025-05-29T13:35:48Z) - JointTuner: Appearance-Motion Adaptive Joint Training for Customized Video Generation [13.168628936598367]
JointTunerは、外観とモーションコンポーネントのジョイント最適化を可能にするフレームワークである。
AiT Lossは外見に関連するコンポーネントの流れを乱し、モデルがモーション学習のみに集中するように誘導する。
JointTunerは、UNetベースのモデルとDiffusion Transformerベースのモデルの両方と互換性がある。
論文 参考訳(メタデータ) (2025-03-31T11:04:07Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation [51.14107156747967]
弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全な教師付きアプローチよりもアノテーションが少ないため、かなりの注目を集めている。
本研究では,非学際的な過密化に対する深い注意を抑えるための適応的再活性化機構 (AReAM) を提案する。
AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞る。
論文 参考訳(メタデータ) (2023-05-04T19:11:33Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。