Fugu-MT 論文翻訳(概要): Open Set Action Recognition via Multi-Label Evidential Learning

論文の概要: Open Set Action Recognition via Multi-Label Evidential Learning

arxiv url: http://arxiv.org/abs/2303.12698v1
Date: Mon, 27 Feb 2023 18:34:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-25 03:19:15.533492
Title: Open Set Action Recognition via Multi-Label Evidential Learning
Title（参考訳）: マルチラベル情報学習によるオープンセット行動認識
Authors: Chen Zhao, Dawei Du, Anthony Hoogs, Christopher Funk
Abstract要約: MULE(MUlti-Label Evidential Learning)を用いたオープンセット行動認識と新規性検出のための新しい手法を提案する。我々のBeta Evidential Neural Networkは、アクター-コンテキスト-オブジェクト関係表現に基づくベータ密度によるマルチアクション不確かさを推定する。提案手法は,シングル/マルチアクタ,シングル/マルチアクション設定において有望な性能を実現する。
参考スコア（独自算出の注目度）: 25.15753429188536
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing methods for open-set action recognition focus on novelty detection that assumes video clips show a single action, which is unrealistic in the real world. We propose a new method for open set action recognition and novelty detection via MUlti-Label Evidential learning (MULE), that goes beyond previous novel action detection methods by addressing the more general problems of single or multiple actors in the same scene, with simultaneous action(s) by any actor. Our Beta Evidential Neural Network estimates multi-action uncertainty with Beta densities based on actor-context-object relation representations. An evidence debiasing constraint is added to the objective function for optimization to reduce the static bias of video representations, which can incorrectly correlate predictions and static cues. We develop a learning algorithm based on a primal-dual average scheme update to optimize the proposed problem. Theoretical analysis of the optimization algorithm demonstrates the convergence of the primal solution sequence and bounds for both the loss function and the debiasing constraint. Uncertainty and belief-based novelty estimation mechanisms are formulated to detect novel actions. Extensive experiments on two real-world video datasets show that our proposed approach achieves promising performance in single/multi-actor, single/multi-action settings.
Abstract（参考訳）: 既存のオープンセットアクション認識手法は、ビデオクリップが1つのアクションを示すと仮定するノベルティ検出に焦点を当てている。本稿では,同一シーンにおけるシングルアクタや複数アクタのより一般的な問題に,任意のアクタによる同時アクション(s)を用いて対処することにより,従来の新しいアクション検出方法を超えて,MULEを用いたオープンセットアクション認識と新規性検出を行う手法を提案する。我々のBeta Evidential Neural Networkは、アクター-コンテキスト-オブジェクト関係表現に基づくベータ密度によるマルチアクション不確かさを推定する。予測と静的な手がかりを誤って相関させることができるビデオ表現の静的バイアスを低減するために、目的関数にエビデンスデバイアス制約を付加する。提案した問題を最適化するために,予備二元平均スキーム更新に基づく学習アルゴリズムを開発した。最適化アルゴリズムの理論解析は、損失関数と偏りの制約の両方に対する一次解列と境界の収束を実証する。不確実性と信条に基づく新規性推定機構を定式化し,新しい行動を検出する。 2つの実世界のビデオデータセットに関する広範囲な実験により,提案手法がシングル/マルチアクタ/シングル/マルチアクション設定で有望な性能を実現することを示した。

関連論文リスト

Forward Consistency Learning with Gated Context Aggregation for Video Anomaly Detection [17.79982215633934]
ビデオ異常検出(VAD)は、リアルタイム監視システムにおける各種イベントの正常パターンからの偏差を測定することを目的としている。既存のVAD手法の多くは、リソース制限されたエッジデバイスへの実現可能性を制限するため、極端な精度を追求するために大規模なモデルに依存している。本稿では,Gatedコンテキストアグリゲーションを用いたフォワード整合学習を実現する軽量なVADモデルFoGAを紹介する。
論文参考訳（メタデータ） (2026-01-26T04:35:31Z)
Scaling Open-Vocabulary Action Detection [3.1844358655583846]
ビデオアクション検出のためのエンコーダのみのマルチモーダルモデルを提案する。我々は、既存のクローズドセットアクション検出データセットを事前トレーニングに活用する。我々は、既存のクローズドセットアクション検出データセットをトレーニングに使用せずに評価するための新しいベンチマークを考案した。
論文参考訳（メタデータ） (2025-04-04T00:28:42Z)
Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。 BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文参考訳（メタデータ） (2024-08-30T15:39:34Z)
Multi-view Action Recognition via Directed Gromov-Wasserstein Discrepancy [12.257725479880458]
行動認識はコンピュータビジョンにおける人気のある研究トピックの1つとなっている。本稿では,アクションビデオの2つの異なる視点から2つの注意の類似性を計算する多視点アテンション整合性手法を提案する。我々のアプローチでは、単一ビューデータセットのトレーニングにおいて、新しいビューからの機能を暗黙的にレンダリングするために、Neural Radiance Fieldというアイデアを適用しています。
論文参考訳（メタデータ） (2024-05-02T14:43:21Z)
Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文参考訳（メタデータ） (2024-03-28T03:07:16Z)
Algorithmic Recourse with Missing Values [11.401006371457436]
本稿では,欠落した値の存在下でも機能するアルゴリズム・リコース(AR)の新たな枠組みを提案する。 ARは、分類器によって与えられる望ましくない予測結果を変更するためのリコースアクションを提供することを目的としている。実験の結果, 基準値に比較して, 欠落した値の存在下での本手法の有効性が示された。
論文参考訳（メタデータ） (2023-04-28T03:22:48Z)
DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文参考訳（メタデータ） (2023-04-01T08:06:43Z)
Composed Image Retrieval with Text Feedback via Multi-grained Uncertainty Regularization [73.04187954213471]
粗い検索ときめ細かい検索を同時にモデル化する統合学習手法を提案する。提案手法は、強いベースラインに対して+4.03%、+3.38%、+2.40%のRecall@50精度を達成した。
論文参考訳（メタデータ） (2022-11-14T14:25:40Z)
CDN-MEDAL: Two-stage Density and Difference Approximation Framework for Motion Analysis [3.337126420148156]
本稿では,2つの畳み込みニューラルネットワークを用いた2段階変化検出手法を提案する。筆者らの2段階フレームワークは, 約3.5Kのパラメータを含むが, 複雑な動きパターンに対する迅速な収束は維持されている。
論文参考訳（メタデータ） (2021-06-07T16:39:42Z)
Learning Salient Boundary Feature for Anchor-free Temporal Action Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。純粋にアンカーフリーな時間的定位法を初めて提案する。このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文参考訳（メタデータ） (2021-03-24T12:28:32Z)
Robust Unsupervised Video Anomaly Detection by Multi-Path Frame Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文参考訳（メタデータ） (2020-11-05T11:34:12Z)
Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed Videos [82.02074241700728]
本稿では,ビデオフレームラベルのみを用いてトレーニングした,禁止レベルの行動認識モデルを提案する。人1人当たりの手法は、複数のインスタンス学習フレームワーク内の大規模な画像データセットで訓練されている。標準的な多重インスタンス学習の仮定では、各バッグには、指定されたラベルを持つ少なくとも1つのインスタンスが含まれているという仮定が無効である場合、どのようにメソッドを適用するかを示す。
論文参考訳（メタデータ） (2020-07-21T10:45:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。