論文の概要: Automatic Generation of Descriptive Titles for Video Clips Using Deep
Learning
- arxiv url: http://arxiv.org/abs/2104.03337v1
- Date: Wed, 7 Apr 2021 18:14:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 13:20:54.878153
- Title: Automatic Generation of Descriptive Titles for Video Clips Using Deep
Learning
- Title(参考訳): ディープラーニングを用いたビデオクリップ用記述タイトルの自動生成
- Authors: Soheyla Amirian, Khaled Rasheed, Thiab R. Taha, Hamid R. Arabnia
- Abstract要約: ビデオのタイトルと簡潔な要約を生成するために,画像/映像キャプション手法と自然言語処理システムを利用したアーキテクチャを提案する。
このようなシステムは、映画館業界、ビデオ検索エンジン、セキュリティ監視、ビデオデータベース/倉庫、データセンターなど、多くのアプリケーションドメインで利用することができます。
- 参考スコア(独自算出の注目度): 2.724141845301679
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Over the last decade, the use of Deep Learning in many applications produced
results that are comparable to and in some cases surpassing human expert
performance. The application domains include diagnosing diseases, finance,
agriculture, search engines, robot vision, and many others. In this paper, we
are proposing an architecture that utilizes image/video captioning methods and
Natural Language Processing systems to generate a title and a concise abstract
for a video. Such a system can potentially be utilized in many application
domains, including, the cinema industry, video search engines, security
surveillance, video databases/warehouses, data centers, and others. The
proposed system functions and operates as followed: it reads a video;
representative image frames are identified and selected; the image frames are
captioned; NLP is applied to all generated captions together with text
summarization; and finally, a title and an abstract are generated for the
video. All functions are performed automatically. Preliminary results are
provided in this paper using publicly available datasets. This paper is not
concerned about the efficiency of the system at the execution time. We hope to
be able to address execution efficiency issues in our subsequent publications.
- Abstract(参考訳): 過去10年間で、多くのアプリケーションでDeep Learningを使用することで、人間の専門家のパフォーマンスに匹敵する結果が得られました。
アプリケーションドメインには、病気の診断、金融、農業、検索エンジン、ロボットビジョンなどが含まれる。
本稿では,ビデオのタイトルと簡潔な要約を生成するために,画像・映像キャプション手法と自然言語処理システムを利用したアーキテクチャを提案する。
このようなシステムは、映画産業、ビデオ検索エンジン、セキュリティ監視、ビデオデータベース/ウェアハウス、データセンターなど、多くのアプリケーション領域で利用することができる。
提案システムでは,ビデオの読み出し,代表画像フレームの識別と選択,画像フレームのキャプション,テキスト要約と合わせて生成されたすべてのキャプションにNLPを適用し,最後にビデオのタイトルと要約を生成する。
全ての機能は自動的に実行される。
本稿では,公開データセットを用いた予備結果について述べる。
本論文は,実行時のシステムの効率を考慮しない。
今後の出版物で実行効率の問題に対処できることを願っています。
関連論文リスト
- Rethinking CLIP-based Video Learners in Cross-Domain Open-Vocabulary
Action Recognition [91.25980503879222]
Contrastive Language-Image Pretraining (CLIP) は、様々な画像理解タスクにおいて顕著な開語彙能力を示している。
近年の先駆的な研究は、強力なCLIPをビデオデータに適用することを提案しており、オープン語彙アクション認識のための効率的で効果的なビデオ学習者を生み出している。
CLIPベースのビデオ学習者は、トレーニング中に遭遇していないビデオドメインに効果的に一般化できますか?
論文 参考訳(メタデータ) (2024-03-03T16:48:16Z) - Video Summarization: Towards Entity-Aware Captions [75.71891605682931]
本稿では,ニュース映像をエンティティ対応キャプションに直接要約するタスクを提案する。
提案手法は,既存のニュース画像キャプションデータセットに一般化されていることを示す。
論文 参考訳(メタデータ) (2023-12-01T23:56:00Z) - Visual Commonsense-aware Representation Network for Video Captioning [84.67432867555044]
ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。
提案手法は最先端の性能に到達し,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-11-17T11:27:15Z) - Contrastive Graph Multimodal Model for Text Classification in Videos [9.218562155255233]
我々は、マルチモーダル情報を融合させることで、ビデオテキスト分類の新しい課題に最初に対処する。
レイアウト情報を明示的に抽出することで特徴表現を強化するために、相関ネットと呼ばれる特定のモジュールを調整します。
我々は、ビデオテキスト認識および分類アプリケーションの構築と評価を目的とした、TI-Newsと呼ばれるニュースドメインから、明確に定義された新しい産業データセットを構築した。
論文 参考訳(メタデータ) (2022-06-06T04:06:21Z) - Reading-strategy Inspired Visual Representation Learning for
Text-to-Video Retrieval [41.420760047617506]
クロスモーダル表現学習は、ビデオと文の両方を、意味的類似性のための共通空間に計画する。
人間の読み方から着想を得た映像表現学習(RIVRL)を提案する。
我々のモデル RIVRL は TGIF と VATEX の新たな最先端を実現する。
論文 参考訳(メタデータ) (2022-01-23T03:38:37Z) - An Integrated Approach for Video Captioning and Applications [2.064612766965483]
ビデオのキャプションにより、長いビデオに適用するためのハイブリッドなディープラーニングアーキテクチャを設計する。
我々は、画像、ビデオ、自然言語をリンクすることは、多くの実用的な利点と即時的な実践的応用をもたらすと論じている。
論文 参考訳(メタデータ) (2022-01-23T01:06:00Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Automated Video Labelling: Identifying Faces by Corroborative Evidence [79.44208317138784]
本稿では,複数のエビデンスソースと複数のモダリティを組み合わせることで,テレビ放送などのビデオアーカイブ内のすべての顔を自動的にラベル付けする手法を提案する。
本研究では,人物が有名であるか否かを画像検索エンジンを用いて判定する,新しい,シンプルな手法を提案する。
あまり有名でない人であっても、画像検索エンジンは、シーンやスピーチで命名された顔の正確なラベル付けに役立てることができる。
論文 参考訳(メタデータ) (2021-02-10T18:57:52Z) - Learning Video Representations from Textual Web Supervision [97.78883761035557]
本稿では,映像表現の学習方法としてテキストを用いることを提案する。
我々は、インターネット上で公開されている7000万の動画クリップを収集し、各ビデオと関連するテキストをペアリングするモデルを訓練する。
提案手法は,映像表現の事前学習に有効な方法であることがわかった。
論文 参考訳(メタデータ) (2020-07-29T16:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。