Fugu-MT 論文翻訳(概要): Hierarchical Action Recognition: A Contrastive Video-Language Approach with Hierarchical Interactions

論文の概要: Hierarchical Action Recognition: A Contrastive Video-Language Approach with Hierarchical Interactions

arxiv url: http://arxiv.org/abs/2405.17729v1
Date: Tue, 28 May 2024 01:17:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 22:51:42.249470
Title: Hierarchical Action Recognition: A Contrastive Video-Language Approach with Hierarchical Interactions
Title（参考訳）: 階層的行動認識 : 階層的相互作用を用いたコントラスト的ビデオ言語アプローチ
Authors: Rui Zhang, Shuailong Li, Junxiao Xue, Feng Lin, Qing Zhang, Xiao Ma, Xiaoran Yan,
Abstract要約: 階層型音声認識の新しい課題を定式化し,階層型認識に適したビデオ言語学習フレームワークを提案する。具体的には,階層的カテゴリ間の依存関係を符号化し,認識予測にトップダウン制約を適用した。階層認識に対するアプローチの有効性を実証し,従来の手法よりも優れていた。
参考スコア（独自算出の注目度）: 19.741453194665276
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video recognition remains an open challenge, requiring the identification of diverse content categories within videos. Mainstream approaches often perform flat classification, overlooking the intrinsic hierarchical structure relating categories. To address this, we formalize the novel task of hierarchical video recognition, and propose a video-language learning framework tailored for hierarchical recognition. Specifically, our framework encodes dependencies between hierarchical category levels, and applies a top-down constraint to filter recognition predictions. We further construct a new fine-grained dataset based on medical assessments for rehabilitation of stroke patients, serving as a challenging benchmark for hierarchical recognition. Through extensive experiments, we demonstrate the efficacy of our approach for hierarchical recognition, significantly outperforming conventional methods, especially for fine-grained subcategories. The proposed framework paves the way for hierarchical modeling in video understanding tasks, moving beyond flat categorization.
Abstract（参考訳）: ビデオ認識は依然としてオープンな課題であり、ビデオ内の多様なコンテンツカテゴリーを識別する必要がある。主流のアプローチはしばしば平坦な分類を行い、本質的な階層構造に関連するカテゴリを見渡す。そこで本稿では,階層型音声認識の新たな課題を定式化し,階層型認識に適したビデオ言語学習フレームワークを提案する。具体的には,階層的カテゴリ間の依存関係を符号化し,認識予測にトップダウン制約を適用した。さらに、脳卒中患者のリハビリテーションのための医療評価に基づく、新たな詳細なデータセットを構築し、階層的認識のための挑戦的なベンチマークとして機能する。広範にわたる実験を通じて,従来手法,特に細粒度サブカテゴリよりも優れていた階層認識に対するアプローチの有効性を実証した。提案するフレームワークは,ビデオ理解タスクにおける階層的モデリングの道を開くもので,フラットな分類を超えている。

関連論文リスト

Bidirectional Logits Tree: Pursuing Granularity Reconcilement in Fine-Grained Classification [89.20477310885731]
本稿では,粒度分類タスクにおけるグラニュラリティコンペティションの課題について述べる。既存のアプローチは通常、共通のベースエンコーダから抽出された共有特徴に基づいて、独立した階層認識モデルを開発する。グラニュラリティ再構成のための双方向ロジットツリー(BiLT)と呼ばれる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-17T10:42:19Z)
Learning Visual Hierarchies with Hyperbolic Embeddings [28.35250955426006]
本稿では,ハイパーボリック空間におけるユーザ定義のマルチレベル視覚階層を,明示的な階層ラベルを必要とせずに符号化できる学習パラダイムを提案する。階層的検索タスクの大幅な改善を示し、視覚的階層を捉える上でのモデルの有効性を示す。
論文参考訳（メタデータ） (2024-11-26T14:58:06Z)
Hierarchical Query Classification in E-commerce Search [38.67034103433015]
電子商取引プラットフォームは通常、製品情報と検索データを階層構造に保存し、構造化する。ユーザ検索クエリを同様の階層構造に効果的に分類することは,eコマースプラットフォーム上でのユーザエクスペリエンスの向上,ニュースキュレーションや学術研究において最重要である。階層的問合せ分類の本質的な複雑さは,(1)支配的カテゴリに傾倒する顕著なクラス不均衡,(2)正確な分類を妨げる検索クエリの本質的簡潔さとあいまいさの2つの課題によって複雑化されている。
論文参考訳（メタデータ） (2024-03-09T21:55:55Z)
Hierarchical Augmentation and Distillation for Class Incremental Audio-Visual Video Recognition [62.85802939587308]
本稿では,CIAVVR(Class Incremental Audio-Visual Video Recognition)の探索に焦点をあてる。記憶されたデータと過去のクラスの学習モデルの両方が歴史的知識を含んでいるため、過去のデータ知識と過去のモデル知識をキャプチャして破滅的な忘れを防げるかが課題である。本稿では,階層拡張モジュール (HAM) と階層拡張モジュール (HDM) を組み合わせた階層拡張蒸留 (HAD) を導入し,データとモデルの階層構造を効率的に活用する。
論文参考訳（メタデータ） (2024-01-11T23:00:24Z)
Weakly-supervised Action Localization via Hierarchical Mining [76.00021423700497]
弱教師付きアクションローカライゼーションは、ビデオレベルの分類ラベルだけで、与えられたビデオ内のアクションインスタンスを時間的にローカライズし、分類することを目的としている。ビデオレベルおよびスニペットレベルでの階層的マイニング戦略,すなわち階層的監視と階層的一貫性マイニングを提案する。我々は、HiM-NetがTHUMOS14とActivityNet1.3データセットの既存の手法よりも、階層的に監督と一貫性をマイニングすることで、大きなマージンを持つことを示す。
論文参考訳（メタデータ） (2022-06-22T12:19:09Z)
United We Learn Better: Harvesting Learning Improvements From Class Hierarchies Across Tasks [9.687531080021813]
本稿では,確率と集合論に基づいて,親の予測と階層的損失を抽出する理論的枠組みを提案する。その結果、分類と検出のベンチマークにまたがって結果が示され、シグモイドに基づく検出アーキテクチャの階層的学習の可能性が開かれた。
論文参考訳（メタデータ） (2021-07-28T20:25:37Z)
Towards Novel Target Discovery Through Open-Set Domain Adaptation [73.81537683043206]
オープンソースドメイン適応(OSDA)は、ターゲットドメインが外部のソースドメインでは観察できない新しいカテゴリのサンプルを含むと考えている。対象領域に見られるカテゴリを正確に識別し,未知のカテゴリのセマンティクス特性を効果的に回復するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2021-05-06T04:22:29Z)
Hierarchical Modeling for Out-of-Scope Domain and Intent Classification [55.23920796595698]
本稿では,対話システムにおけるスコープ外意図分類に焦点をあてる。ドメインとインテントを同時に分類する共同モデルに基づく階層型マルチタスク学習手法を提案する。実験により、モデルが既存の手法よりも精度、スコープ外リコール、F1で優れていることが示された。
論文参考訳（メタデータ） (2021-04-30T06:38:23Z)
Inducing a hierarchy for multi-class classification problems [11.58041597483471]
分類的ラベルが自然な階層に従ったアプリケーションでは、ラベル構造を利用する分類方法は、そうでないものをしばしば上回る。本稿では,フラット分類器に対する分類性能を向上できる階層構造を誘導する手法のクラスについて検討する。原理シミュレーションと3つの実データアプリケーションにおいて、潜入階層の発見と精度向上のためのメソッドのクラスの有効性を実証する。
論文参考訳（メタデータ） (2021-02-20T05:40:42Z)
Hierarchical Contrastive Motion Learning for Video Action Recognition [100.9807616796383]
本稿では,映像フレームから効果的な動き表現を抽出する自己教師型学習フレームワークである階層型コントラスト学習を提案する。提案手法は,ネットワーク内の異なる抽象レベルに対応する動作特徴の階層構造を段階的に学習する。私たちのモーション学習モジュールは軽量で柔軟性があり、様々なバックボーンネットワークに組み込むことができます。
論文参考訳（メタデータ） (2020-07-20T17:59:22Z)
Hierarchical Image Classification using Entailment Cone Embeddings [68.82490011036263]
まずラベル階層の知識を任意のCNNベースの分類器に注入する。画像からの視覚的セマンティクスと組み合わせた外部セマンティクス情報の利用が全体的な性能を高めることを実証的に示す。
論文参考訳（メタデータ） (2020-04-02T10:22:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。