論文の概要: Constructing a Highlight Classifier with an Attention Based LSTM Neural
Network
- arxiv url: http://arxiv.org/abs/2002.04608v1
- Date: Wed, 12 Feb 2020 15:18:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 19:39:40.045887
- Title: Constructing a Highlight Classifier with an Attention Based LSTM Neural
Network
- Title(参考訳): 注意型LSTMニューラルネットを用いたハイライト分類器の構成
- Authors: Michael Kuehne and Marius Radu
- Abstract要約: 市場研究者は、関連する部分を特定するために、消費者調査ビデオの大部分を手作業でレビューする。
本研究では,教師付き学習モデルに基づくNLPに基づくハイライト識別と抽出のための新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data is being produced in larger quantities than ever before in human
history. It's only natural to expect a rise in demand for technology that aids
humans in sifting through and analyzing this inexhaustible supply of
information. This need exists in the market research industry, where large
amounts of consumer research data is collected through video recordings. At
present, the standard method for analyzing video data is human labor. Market
researchers manually review the vast majority of consumer research video in
order to identify relevant portions - highlights. The industry state of the art
turnaround ratio is 2.2 - for every hour of video content 2.2 hours of manpower
are required. In this study we present a novel approach for NLP-based highlight
identification and extraction based on a supervised learning model that aides
market researchers in sifting through their data. Our approach hinges on a
manually curated user-generated highlight clips constructed from long and
short-form video data. The problem is best suited for an NLP approach due to
the availability of video transcription. We evaluate multiple classes of
models, from gradient boosting to recurrent neural networks, comparing their
performance in extraction and identification of highlights. The best performing
models are then evaluated using four sampling methods designed to analyze
documents much larger than the maximum input length of the classifiers. We
report very high performances for the standalone classifiers, ROC AUC scores in
the range 0.93-0.94, but observe a significant drop in effectiveness when
evaluated on large documents. Based on our results we suggest combinations of
models/sampling algorithms for various use cases.
- Abstract(参考訳): データは人類史上、これまで以上に大量生産されている。
この不確実な情報の供給を人間に浸透させ分析させる技術への需要が高まるのを期待するのは当然です。
このニーズは、ビデオ記録を通じて大量の消費者調査データを収集する市場調査産業に存在している。
現在、ビデオデータを分析する標準的な方法は人的労働である。
市場研究者は、コンシューマーリサーチビデオの大部分を手作業でレビューし、関連する部分を特定する。
アートのターンアラウンド比の業界状況は2.2であり、ビデオコンテンツの毎時間2.2時間を必要とする。
本研究では,市場研究者によるデータ収集を支援する教師付き学習モデルに基づく,NLPに基づくハイライト識別と抽出のための新しいアプローチを提案する。
提案手法は,長大かつ短大なビデオデータから構築したユーザ生成ハイライトクリップを手作業で作成する。
この問題は、ビデオの書き起こしが可能であるため、NLPアプローチに最も適している。
勾配ブースティングから再帰ニューラルネットワークまで,複数のモデルのクラスを評価し,ハイライトの抽出と同定における性能を比較した。
次に,分類器の最大入力長よりもはるかに大きい文書を解析するための4つのサンプリング手法を用いて,最高の性能モデルを評価する。
スタンドアロンの分類器, roc auc スコアは 0.93-0.94 の範囲で非常に高い性能を示すが, 大きな文書で評価した場合の有効性は著しく低下する。
この結果に基づき,様々なユースケースに対するモデル/サンプリングアルゴリズムの組み合わせを提案する。
関連論文リスト
- Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - CapST: An Enhanced and Lightweight Model Attribution Approach for
Synthetic Videos [9.209808258321559]
本稿では、最近提案されたデータセット、DFDM(Deepfakes from Different Models)からのDeepfakeビデオのモデル属性問題について検討する。
データセットは、エンコーダ、デコーダ、中間層、入力解像度、圧縮比の5つの異なるモデルによって生成された6,450のDeepfakeビデオからなる。
ディープフェイク・ベンチマーク・データセット(DFDM)による実験結果から提案手法の有効性が示され、ディープフェイク・ビデオの正確な分類において最大4%の改善が達成された。
論文 参考訳(メタデータ) (2023-11-07T08:05:09Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - SurgMAE: Masked Autoencoders for Long Surgical Video Analysis [4.866110274299399]
マスク付きオートエンコーダ(MAE)は視覚変換器(ViT)の自己監督パラダイムに注目された
本稿では,外科的ビデオ領域における転送可能な表現をMAEが学習できるかどうかを最初に検討する。
本稿では,MAE用高テンポラルトークンをサンプリングするマスキング戦略を備えた新しいアーキテクチャであるSurgMAEを提案する。
論文 参考訳(メタデータ) (2023-05-19T06:12:50Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。