論文の概要: PHI: Bridging Domain Shift in Long-Term Action Quality Assessment via Progressive Hierarchical Instruction
- arxiv url: http://arxiv.org/abs/2505.19972v1
- Date: Mon, 26 May 2025 13:34:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.467148
- Title: PHI: Bridging Domain Shift in Long-Term Action Quality Assessment via Progressive Hierarchical Instruction
- Title(参考訳): PHI:段階的階層的指導による長期的行動品質評価におけるブリッジングドメインシフト
- Authors: Kanglei Zhou, Hubert P. H. Shum, Frederick W. B. Li, Xingxing Zhang, Xiaohui Liang,
- Abstract要約: 長期行動品質評価(Long-term Action Quality Assessment, AQA)は、長時間ビデオにおける行動の定量的パフォーマンスを評価することを目的としている。
既存の手法では、トレーニング済みの大規模アクション認識バックボーンと特定のAQAタスクのドメインシフトによる課題に直面し、パフォーマンスを損なう。
我々は、タスクレベル、タスク目標の違いに関するタスクレベル、重要な機能の違いに関する機能レベルという2つのレベルのドメインシフトを特定することで、この問題に対処する。
- 参考スコア(独自算出の注目度): 30.59030967261011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-term Action Quality Assessment (AQA) aims to evaluate the quantitative performance of actions in long videos. However, existing methods face challenges due to domain shifts between the pre-trained large-scale action recognition backbones and the specific AQA task, thereby hindering their performance. This arises since fine-tuning resource-intensive backbones on small AQA datasets is impractical. We address this by identifying two levels of domain shift: task-level, regarding differences in task objectives, and feature-level, regarding differences in important features. For feature-level shifts, which are more detrimental, we propose Progressive Hierarchical Instruction (PHI) with two strategies. First, Gap Minimization Flow (GMF) leverages flow matching to progressively learn a fast flow path that reduces the domain gap between initial and desired features across shallow to deep layers. Additionally, a temporally-enhanced attention module captures long-range dependencies essential for AQA. Second, List-wise Contrastive Regularization (LCR) facilitates coarse-to-fine alignment by comprehensively comparing batch pairs to learn fine-grained cues while mitigating domain shift. Integrating these modules, PHI offers an effective solution. Experiments demonstrate that PHI achieves state-of-the-art performance on three representative long-term AQA datasets, proving its superiority in addressing the domain shift for long-term AQA.
- Abstract(参考訳): 長期行動品質評価(Long-term Action Quality Assessment, AQA)は、長時間ビデオにおける行動の定量的パフォーマンスを評価することを目的としている。
しかし、既存の手法では、事前訓練された大規模アクション認識バックボーンと特定のAQAタスクとのドメインシフトによる課題に直面し、パフォーマンスを損なう。
これは、小さなAQAデータセット上の微調整されたリソース集約バックボーンが実用的でないためである。
我々は、タスクレベル、タスク目標の違いに関するタスクレベル、重要な機能の違いに関する機能レベルという2つのレベルのドメインシフトを特定することで、この問題に対処する。
より有害な特徴レベルのシフトに対しては,2つの戦略によるPHI(Progressive Hierarchical Instruction)を提案する。
第一に、ギャップ最小化フロー(GMF)はフローマッチングを利用して、浅い層から深い層にまたがる初期と望まれる機能の間のドメインギャップを低減する高速なフローパスを段階的に学習する。
さらに、時間的に強化されたアテンションモジュールは、AQAに必要な長距離依存関係をキャプチャする。
第2に、LCR(List-wise Contrastive Regularization)は、バッチペアを包括的に比較して、ドメインシフトを緩和しながらきめ細かなキューを学習することにより、粗大なアライメントを容易にする。
これらのモジュールを統合することで、PHIは効果的なソリューションを提供する。
実験により、PHIは3つの代表的な長期AQAデータセットに対して最先端のパフォーマンスを達成し、長期AQAのドメインシフトに対処する上で、その優位性を証明した。
関連論文リスト
- Domain-Hierarchy Adaptation via Chain of Iterative Reasoning for Few-shot Hierarchical Text Classification [13.320591504692574]
我々は,PLMの知識を非構造化の方法で下流階層に適応させるために,HTCの問題を数ショット設定で研究する。
階層的条件付き反復ランダムフィールド (HierICRF) という単純な手法を用いて、最もドメインが混在する方向を探索する。
HierICRFによるプロンプトは、平均的なMicro-F1の28.80%から1.50%、Macro-F1の36.29%から1.5%で、HTCのパフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2024-07-12T03:21:57Z) - CoFInAl: Enhancing Action Quality Assessment with Coarse-to-Fine Instruction Alignment [38.12600984070689]
アクション品質アセスメント(AQA)は、スポーツや医療といった分野におけるアクションの定量化に重要である。
既存の方法は、小さなAQAデータセットのパフォーマンスを高めるために、大規模なアクション認識データセットからトレーニング済みのバックボーンに依存することが多い。
我々は、粗大な分類タスクとして再構成することで、AQAをより広範な事前訓練タスクと整合させるために、粗大なインストラクションアライメント(CoFInAl)を提案する。
論文 参考訳(メタデータ) (2024-04-22T09:03:21Z) - Cross-Domain Few-Shot Learning via Adaptive Transformer Networks [16.289485655725013]
本稿では,ドメイン間数ショット学習のための適応型トランスフォーマネットワーク(ADAPTER)を提案する。
ADAPTERは2つのドメイン間で伝達可能な特徴を学習するために双方向の相互注意というアイデアに基づいて構築されている。
論文 参考訳(メタデータ) (2024-01-25T07:05:42Z) - Joint Learning for Scattered Point Cloud Understanding with Hierarchical Self-Distillation [34.26170741722835]
そこで本研究では,部分点雲を高速に補正し,同定するエンド・ツー・エンドアーキテクチャを提案する。
階層型自己蒸留(HSD)は任意の階層ベースのポイントクラウドメソッドに適用できる。
論文 参考訳(メタデータ) (2023-12-28T08:51:04Z) - Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation [86.02485817444216]
マルチプロンプトアライメント(MPA: Multi-Prompt Alignment)は,マルチソースUDAのためのシンプルかつ効率的なフレームワークである。
MPAは、学習したプロンプトを自動エンコードプロセスで認知し、再構築されたプロンプトの合意を最大化することでそれらを調整する。
実験によると、MPAは3つの一般的なデータセットで最先端の結果を達成し、DomainNetの平均精度は54.1%である。
論文 参考訳(メタデータ) (2022-09-30T03:40:10Z) - Action Quality Assessment with Temporal Parsing Transformer [84.1272079121699]
行動品質評価(AQA)は、作業の理解と解決に重要である。
本稿では,時間的部分表現に包括的特徴を分解する時間的パーシング変換器を提案する。
提案手法は,3つの公開AQAベンチマークにおける先行研究よりもかなりのマージンで優れていた。
論文 参考訳(メタデータ) (2022-07-19T13:29:05Z) - Conflict-Averse Gradient Descent for Multi-task Learning [56.379937772617]
マルチタスクモデルを最適化する際の大きな課題は、矛盾する勾配である。
本稿では、平均損失関数を最小化する衝突-逆勾配降下(CAGrad)を導入する。
CAGradは目標を自動的にバランスし、平均損失よりも最小限に確実に収束する。
論文 参考訳(メタデータ) (2021-10-26T22:03:51Z) - Learning to Relate Depth and Semantics for Unsupervised Domain
Adaptation [87.1188556802942]
教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。
本稿では,意味的および深さ的予測のタスク依存性を符号化する新しいクロスタスク関係層(ctrl)を提案する。
さらに、セマンティック擬似ラベルを利用してターゲットドメインを監督する反復自己学習(ISL)トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-17T13:42:09Z) - Domain Conditioned Adaptation Network [90.63261870610211]
本稿では,ドメイン条件付きチャネルアテンション機構を用いて,異なる畳み込みチャネルを励起するドメイン条件適応ネットワーク(DCAN)を提案する。
これは、ディープDAネットワークのドメインワイドな畳み込みチャネルアクティベーションを探求する最初の試みである。
論文 参考訳(メタデータ) (2020-05-14T04:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。