論文の概要: Curriculum-Based Strategies for Efficient Cross-Domain Action Recognition
- arxiv url: http://arxiv.org/abs/2601.14101v1
- Date: Tue, 20 Jan 2026 16:01:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.398347
- Title: Curriculum-Based Strategies for Efficient Cross-Domain Action Recognition
- Title(参考訳): 効率的なクロスドメイン動作認識のためのカリキュラムベース戦略
- Authors: Emily Kim, Allen Wu, Jessica Hodgins,
- Abstract要約: 本稿では,カリキュラムベースのトレーニング戦略が,実際の空中データを使用しなくても,実際の空中データを見落とせるように一般化する方法について検討する。
本研究では,合成空中視データと実地視データという2つの領域外情報源を用いたクロスビュー行動認識のためのカリキュラム学習について検討する。
- 参考スコア(独自算出の注目度): 0.17195436261574934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant progress in human action recognition, generalizing to diverse viewpoints remains a challenge. Most existing datasets are captured from ground-level perspectives, and models trained on them often struggle to transfer to drastically different domains such as aerial views. This paper examines how curriculum-based training strategies can improve generalization to unseen real aerial-view data without using any real aerial data during training. We explore curriculum learning for cross-view action recognition using two out-of-domain sources: synthetic aerial-view data and real ground-view data. Our results on the evaluation on order of training (fine-tuning on synthetic aerial data vs. real ground data) shows that fine-tuning on real ground data but differ in how they transition from synthetic to real. The first uses a two-stage curriculum with direct fine-tuning, while the second applies a progressive curriculum that expands the dataset in multiple stages before fine-tuning. We evaluate both methods on the REMAG dataset using SlowFast (CNN-based) and MViTv2 (Transformer-based) architectures. Results show that combining the two out-of-domain datasets clearly outperforms training on a single domain, whether real ground-view or synthetic aerial-view. Both curriculum strategies match the top-1 accuracy of simple dataset combination while offering efficiency gains. With the two-step fine-tuning method, SlowFast achieves up to a 37% reduction in iterations and MViTv2 up to a 30% reduction compared to simple combination. The multi-step progressive approach further reduces iterations, by up to 9% for SlowFast and 30% for MViTv2, relative to the two-step method. These findings demonstrate that curriculum-based training can maintain comparable performance (top-1 accuracy within 3% range) while improving training efficiency in cross-view action recognition.
- Abstract(参考訳): 人間の行動認識の進歩にもかかわらず、多様な視点への一般化は依然として課題である。
既存のデータセットのほとんどは地上レベルの視点で取得されており、訓練されたモデルはしばしば、空中ビューのような非常に異なる領域への転送に苦労する。
本稿では,カリキュラムベースのトレーニング戦略が,実際の空中データを使用しなくても,実際の空中データを見落とせるように一般化する方法について検討する。
本研究では,合成空中視データと実地視データという2つの領域外情報源を用いたクロスビュー行動認識のためのカリキュラム学習について検討する。
実地データによる微調整は, 実地データから実地データへの遷移の仕方によって異なるが, 実地データから実地データへの微調整の仕方について検討した。
1つは直接微調整の2段階のカリキュラムを使用し、2つ目は、微調整の前に複数の段階でデータセットを拡張するプログレッシブなカリキュラムを適用している。
SlowFast(CNNベース)とMViTv2(Transformerベース)を用いてREMAGデータセット上の両方の手法を評価する。
その結果、2つのドメイン外のデータセットの組み合わせは、実際の地上視でも合成空中視でも、単一のドメインでのトレーニングよりも明らかに優れていた。
両方のカリキュラム戦略は、単純なデータセットの組み合わせの上位1の精度と効率性を提供しながら一致している。
2段階の微調整法により、SlowFastはイテレーションの最大37%、MViTv2は単純な組み合わせに比べて30%削減できる。
マルチステッププログレッシブアプローチにより、SlowFastでは最大9%、MViTv2では最大30%のイテレーションが削減される。
これらの結果から,カリキュラムベースの学習は,学習効率を向上しつつ,比較性能(トップ1の精度は3%の範囲)を維持できることが示唆された。
関連論文リスト
- Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。
本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。
AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-24T05:17:53Z) - Robust and Explainable Fine-Grained Visual Classification with Transfer Learning: A Dual-Carriageway Framework [0.799543372823325]
我々は、Dual-Carriageway Framework (DCF) という自動ベストスーツトレーニングソリューション検索フレームワークを提案する。
3つの畳み込みニューラルネットワーク(ResNet18、ResNet34、Inception-v3)を用いてDCFの有効性を検証する。
その結果、既存のデータセットと新しいデータセットでそれぞれ2.13%、1.23%の微調整パスのパフォーマンスが向上した。
論文 参考訳(メタデータ) (2024-05-09T15:41:10Z) - SimVPv2: Towards Simple yet Powerful Spatiotemporal Predictive Learning [61.419914155985886]
空間的・時間的モデリングにおけるUnetアーキテクチャの必要性を解消する合理化モデルであるSimVPv2を提案する。
SimVPv2はモデルアーキテクチャを単純化するだけでなく、性能と計算効率も改善する。
標準のMoving MNISTベンチマークでは、SimVPv2は、FLOPが少なく、トレーニング時間の半分、推論効率が60%速く、SimVPよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-11-22T08:01:33Z) - Few-Shot Classification with Contrastive Learning [10.236150550121163]
両段階に比較学習をシームレスに統合する,新しいコントラスト学習ベースのフレームワークを提案する。
メタトレーニングの段階において,同エピソードの2つの異なる視点から最寄りのセントロイド分類を行うための,クロスビュー・エピソード・トレーニング機構を提案する。
これらの2つの戦略は、ビュー間のバイアスを克服し、表現の転送可能性を促進するようモデルに強制する。
論文 参考訳(メタデータ) (2022-09-17T02:39:09Z) - Delving into Effective Gradient Matching for Dataset Condensation [13.75957901381024]
勾配マッチング法は、元のデータセットと合成データセットのトレーニング時に勾配をマッチングすることで、トレーニングダイナミクスを直接ターゲットとする。
クラス内勾配情報とクラス間勾配情報の両方を含む多段階勾配情報とを一致させることを提案する。
アルゴリズムの効率向上のための不要な最適化ステップをトリムするために、過適合適応学習ステップ戦略も提案されている。
論文 参考訳(メタデータ) (2022-07-30T21:31:10Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Beyond Transfer Learning: Co-finetuning for Action Localisation [64.07196901012153]
同時に、複数のアップストリームとダウンストリームのタスクで1つのモデルをトレーニングする。
共ファインタニングは、同じデータ量を使用する場合、従来のトランスファーラーニングよりも優れていることを示す。
さらに、複数のアップストリームデータセットへのアプローチを簡単に拡張して、パフォーマンスをさらに向上する方法も示しています。
論文 参考訳(メタデータ) (2022-07-08T10:25:47Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - StRDAN: Synthetic-to-Real Domain Adaptation Network for Vehicle
Re-Identification [16.14221315208939]
車両の再識別は、車両の画像から同じ車両を取得することを目的としている。
これは、市内の交通の流れを分析し予測するのには不可欠である。
本稿では,低コストで大規模な合成・実データを用いて学習し,性能を向上させる合成・実領域適応ネットワーク(StRDAN)を提案する。
論文 参考訳(メタデータ) (2020-04-25T01:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。