論文の概要: Hierarchical Action Recognition: A Contrastive Video-Language Approach with Hierarchical Interactions
- arxiv url: http://arxiv.org/abs/2405.17729v1
- Date: Tue, 28 May 2024 01:17:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 22:51:42.249470
- Title: Hierarchical Action Recognition: A Contrastive Video-Language Approach with Hierarchical Interactions
- Title(参考訳): 階層的行動認識 : 階層的相互作用を用いたコントラスト的ビデオ言語アプローチ
- Authors: Rui Zhang, Shuailong Li, Junxiao Xue, Feng Lin, Qing Zhang, Xiao Ma, Xiaoran Yan,
- Abstract要約: 階層型音声認識の新しい課題を定式化し,階層型認識に適したビデオ言語学習フレームワークを提案する。
具体的には,階層的カテゴリ間の依存関係を符号化し,認識予測にトップダウン制約を適用した。
階層認識に対するアプローチの有効性を実証し,従来の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 19.741453194665276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video recognition remains an open challenge, requiring the identification of diverse content categories within videos. Mainstream approaches often perform flat classification, overlooking the intrinsic hierarchical structure relating categories. To address this, we formalize the novel task of hierarchical video recognition, and propose a video-language learning framework tailored for hierarchical recognition. Specifically, our framework encodes dependencies between hierarchical category levels, and applies a top-down constraint to filter recognition predictions. We further construct a new fine-grained dataset based on medical assessments for rehabilitation of stroke patients, serving as a challenging benchmark for hierarchical recognition. Through extensive experiments, we demonstrate the efficacy of our approach for hierarchical recognition, significantly outperforming conventional methods, especially for fine-grained subcategories. The proposed framework paves the way for hierarchical modeling in video understanding tasks, moving beyond flat categorization.
- Abstract(参考訳): ビデオ認識は依然としてオープンな課題であり、ビデオ内の多様なコンテンツカテゴリーを識別する必要がある。
主流のアプローチはしばしば平坦な分類を行い、本質的な階層構造に関連するカテゴリを見渡す。
そこで本稿では,階層型音声認識の新たな課題を定式化し,階層型認識に適したビデオ言語学習フレームワークを提案する。
具体的には,階層的カテゴリ間の依存関係を符号化し,認識予測にトップダウン制約を適用した。
さらに、脳卒中患者のリハビリテーションのための医療評価に基づく、新たな詳細なデータセットを構築し、階層的認識のための挑戦的なベンチマークとして機能する。
広範にわたる実験を通じて,従来手法,特に細粒度サブカテゴリよりも優れていた階層認識に対するアプローチの有効性を実証した。
提案するフレームワークは,ビデオ理解タスクにおける階層的モデリングの道を開くもので,フラットな分類を超えている。
関連論文リスト
- Hierarchical Query Classification in E-commerce Search [38.67034103433015]
電子商取引プラットフォームは通常、製品情報と検索データを階層構造に保存し、構造化する。
ユーザ検索クエリを同様の階層構造に効果的に分類することは,eコマースプラットフォーム上でのユーザエクスペリエンスの向上,ニュースキュレーションや学術研究において最重要である。
階層的問合せ分類の本質的な複雑さは,(1)支配的カテゴリに傾倒する顕著なクラス不均衡,(2)正確な分類を妨げる検索クエリの本質的簡潔さとあいまいさの2つの課題によって複雑化されている。
論文 参考訳(メタデータ) (2024-03-09T21:55:55Z) - Hierarchical Augmentation and Distillation for Class Incremental Audio-Visual Video Recognition [62.85802939587308]
本稿では,CIAVVR(Class Incremental Audio-Visual Video Recognition)の探索に焦点をあてる。
記憶されたデータと過去のクラスの学習モデルの両方が歴史的知識を含んでいるため、過去のデータ知識と過去のモデル知識をキャプチャして破滅的な忘れを防げるかが課題である。
本稿では,階層拡張モジュール (HAM) と階層拡張モジュール (HDM) を組み合わせた階層拡張蒸留 (HAD) を導入し,データとモデルの階層構造を効率的に活用する。
論文 参考訳(メタデータ) (2024-01-11T23:00:24Z) - Weakly-supervised Action Localization via Hierarchical Mining [76.00021423700497]
弱教師付きアクションローカライゼーションは、ビデオレベルの分類ラベルだけで、与えられたビデオ内のアクションインスタンスを時間的にローカライズし、分類することを目的としている。
ビデオレベルおよびスニペットレベルでの階層的マイニング戦略,すなわち階層的監視と階層的一貫性マイニングを提案する。
我々は、HiM-NetがTHUMOS14とActivityNet1.3データセットの既存の手法よりも、階層的に監督と一貫性をマイニングすることで、大きなマージンを持つことを示す。
論文 参考訳(メタデータ) (2022-06-22T12:19:09Z) - Hierarchical Modeling for Task Recognition and Action Segmentation in
Weakly-Labeled Instructional Videos [6.187780920448871]
本稿では,弱いラベル付き指導ビデオにおけるタスク認識とアクションセグメンテーションに焦点を当てた。
本稿では,意味的階層と時間的階層を利用して指導ビデオの上位レベルタスクを認識できる2ストリームフレームワークを提案する。
提案手法では, 微粒な動作系列の推論を制約するために, 予測タスクを用いる。
論文 参考訳(メタデータ) (2021-10-12T02:32:15Z) - United We Learn Better: Harvesting Learning Improvements From Class
Hierarchies Across Tasks [9.687531080021813]
本稿では,確率と集合論に基づいて,親の予測と階層的損失を抽出する理論的枠組みを提案する。
その結果、分類と検出のベンチマークにまたがって結果が示され、シグモイドに基づく検出アーキテクチャの階層的学習の可能性が開かれた。
論文 参考訳(メタデータ) (2021-07-28T20:25:37Z) - Towards Novel Target Discovery Through Open-Set Domain Adaptation [73.81537683043206]
オープンソースドメイン適応(OSDA)は、ターゲットドメインが外部のソースドメインでは観察できない新しいカテゴリのサンプルを含むと考えている。
対象領域に見られるカテゴリを正確に識別し,未知のカテゴリのセマンティクス特性を効果的に回復するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-06T04:22:29Z) - Hierarchical Modeling for Out-of-Scope Domain and Intent Classification [55.23920796595698]
本稿では,対話システムにおけるスコープ外意図分類に焦点をあてる。
ドメインとインテントを同時に分類する共同モデルに基づく階層型マルチタスク学習手法を提案する。
実験により、モデルが既存の手法よりも精度、スコープ外リコール、F1で優れていることが示された。
論文 参考訳(メタデータ) (2021-04-30T06:38:23Z) - Inducing a hierarchy for multi-class classification problems [11.58041597483471]
分類的ラベルが自然な階層に従ったアプリケーションでは、ラベル構造を利用する分類方法は、そうでないものをしばしば上回る。
本稿では,フラット分類器に対する分類性能を向上できる階層構造を誘導する手法のクラスについて検討する。
原理シミュレーションと3つの実データアプリケーションにおいて、潜入階層の発見と精度向上のためのメソッドのクラスの有効性を実証する。
論文 参考訳(メタデータ) (2021-02-20T05:40:42Z) - Hierarchical Contrastive Motion Learning for Video Action Recognition [100.9807616796383]
本稿では,映像フレームから効果的な動き表現を抽出する自己教師型学習フレームワークである階層型コントラスト学習を提案する。
提案手法は,ネットワーク内の異なる抽象レベルに対応する動作特徴の階層構造を段階的に学習する。
私たちのモーション学習モジュールは軽量で柔軟性があり、様々なバックボーンネットワークに組み込むことができます。
論文 参考訳(メタデータ) (2020-07-20T17:59:22Z) - Hierarchical Image Classification using Entailment Cone Embeddings [68.82490011036263]
まずラベル階層の知識を任意のCNNベースの分類器に注入する。
画像からの視覚的セマンティクスと組み合わせた外部セマンティクス情報の利用が全体的な性能を高めることを実証的に示す。
論文 参考訳(メタデータ) (2020-04-02T10:22:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。