論文の概要: Reliable Shot Identification for Complex Event Detection via
Visual-Semantic Embedding
- arxiv url: http://arxiv.org/abs/2110.08063v1
- Date: Tue, 12 Oct 2021 11:46:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-24 13:11:56.532238
- Title: Reliable Shot Identification for Complex Event Detection via
Visual-Semantic Embedding
- Title(参考訳): 視覚的セマンティックな埋め込みによる複合イベント検出のための信頼性のあるショット識別
- Authors: Minnan Luo and Xiaojun Chang and Chen Gong
- Abstract要約: 本稿では,映像中の事象検出のための視覚的意味的誘導損失法を提案する。
カリキュラム学習に動機付け,高い信頼性の事例で分類器の訓練を開始するために,負の弾性正規化項を導入する。
提案する非ネット正規化問題の解法として,代替最適化アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 72.9370352430965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimedia event detection is the task of detecting a specific event of
interest in an user-generated video on websites. The most fundamental challenge
facing this task lies in the enormously varying quality of the video as well as
the high-level semantic abstraction of event inherently. In this paper, we
decompose the video into several segments and intuitively model the task of
complex event detection as a multiple instance learning problem by representing
each video as a "bag" of segments in which each segment is referred to as an
instance. Instead of treating the instances equally, we associate each instance
with a reliability variable to indicate its importance and then select reliable
instances for training. To measure the reliability of the varying instances
precisely, we propose a visual-semantic guided loss by exploiting low-level
feature from visual information together with instance-event similarity based
high-level semantic feature. Motivated by curriculum learning, we introduce a
negative elastic-net regularization term to start training the classifier with
instances of high reliability and gradually taking the instances with
relatively low reliability into consideration. An alternative optimization
algorithm is developed to solve the proposed challenging non-convex non-smooth
problem. Experimental results on standard datasets, i.e., TRECVID MEDTest 2013
and TRECVID MEDTest 2014, demonstrate the effectiveness and superiority of the
proposed method to the baseline algorithms.
- Abstract(参考訳): マルチメディアイベント検出は、ウェブサイト上でユーザーが生成したビデオの特定のイベントを検出するタスクである。
このタスクに直面する最も根本的な課題は、ビデオの質が大幅に変化することと、イベントを本質的に高レベルに抽象化することにある。
本稿では,映像を複数のセグメントに分解し,複雑なイベント検出のタスクを複数のインスタンス学習問題として直感的にモデル化し,各セグメントをインスタンスと呼ぶセグメントの「袋」として表現する。
インスタンスを均等に扱う代わりに、各インスタンスをその重要性を示す信頼性変数に関連付け、トレーニング用の信頼性のあるインスタンスを選択する。
様々なインスタンスの信頼性を正確に測定するために,視覚情報から低レベル特徴と高レベルセマンティック特徴を併用し,視覚的セマンティック誘導損失を提案する。
カリキュラム学習に動機づけられ,信頼性の高いインスタンスで分類器を訓練し,比較的信頼性の低いインスタンスを徐々に考慮し始めるための,負の弾力性ネット正規化用語を導入する。
提案する非凸非スムース問題を解くための代替最適化アルゴリズムを開発した。
標準データセットであるTRECVID MEDTest 2013とTRECVID MEDTest 2014の実験結果は、提案手法のベースラインアルゴリズムの有効性と優位性を示している。
関連論文リスト
- Sample-agnostic Adversarial Perturbation for Vision-Language Pre-training Models [7.350203999073509]
AIセキュリティに関する最近の研究は、画像やテキストの微妙で意図的に設計された摂動に対するビジョンランゲージ事前学習モデルの脆弱性を強調している。
私たちの知る限りでは、どんな画像にも当てはまる普遍的でサンプルに依存しない摂動の生成を探索する、マルチモーダルな決定境界による最初の研究である。
論文 参考訳(メタデータ) (2024-08-06T06:25:39Z) - Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z) - Bayesian Nonparametric Submodular Video Partition for Robust Anomaly
Detection [9.145168943972067]
MIL(Multiple-instance Learning)は、ビデオ異常検出問題に対処するための効果的な方法である。
我々は,MILモデルトレーニングを大幅に改善するために,新しいベイズ非パラメトリックサブモジュールビデオ分割(BN-SVP)を提案する。
我々の理論解析は,提案アルゴリズムの性能保証を確実にする。
論文 参考訳(メタデータ) (2022-03-24T04:00:49Z) - Learning to Track Instances without Video Annotations [85.9865889886669]
本稿では,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。
画像のみを訓練しても,学習した特徴表現は出現の変動にロバストであることが判明した。
さらに、このモジュールを単一ステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合します。
論文 参考訳(メタデータ) (2021-04-01T06:47:41Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - A Background-Agnostic Framework with Adversarial Training for Abnormal
Event Detection in Video [120.18562044084678]
近年,ビデオにおける異常事象検出は複雑なコンピュータビジョンの問題として注目されている。
通常のイベントのみを含むトレーニングビデオから学習するバックグラウンドに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-27T18:39:24Z) - Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed
Videos [82.02074241700728]
本稿では,ビデオフレームラベルのみを用いてトレーニングした,禁止レベルの行動認識モデルを提案する。
人1人当たりの手法は、複数のインスタンス学習フレームワーク内の大規模な画像データセットで訓練されている。
標準的な多重インスタンス学習の仮定では、各バッグには、指定されたラベルを持つ少なくとも1つのインスタンスが含まれているという仮定が無効である場合、どのようにメソッドを適用するかを示す。
論文 参考訳(メタデータ) (2020-07-21T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。