Fugu-MT 論文翻訳(概要): Automatic Generation of Descriptive Titles for Video Clips Using Deep Learning

論文の概要: Automatic Generation of Descriptive Titles for Video Clips Using Deep Learning

arxiv url: http://arxiv.org/abs/2104.03337v1
Date: Wed, 7 Apr 2021 18:14:18 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-09 13:20:54.878153
Title: Automatic Generation of Descriptive Titles for Video Clips Using Deep Learning
Title（参考訳）: ディープラーニングを用いたビデオクリップ用記述タイトルの自動生成
Authors: Soheyla Amirian, Khaled Rasheed, Thiab R. Taha, Hamid R. Arabnia
Abstract要約: ビデオのタイトルと簡潔な要約を生成するために,画像/映像キャプション手法と自然言語処理システムを利用したアーキテクチャを提案する。このようなシステムは、映画館業界、ビデオ検索エンジン、セキュリティ監視、ビデオデータベース/倉庫、データセンターなど、多くのアプリケーションドメインで利用することができます。
参考スコア（独自算出の注目度）: 2.724141845301679
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Over the last decade, the use of Deep Learning in many applications produced results that are comparable to and in some cases surpassing human expert performance. The application domains include diagnosing diseases, finance, agriculture, search engines, robot vision, and many others. In this paper, we are proposing an architecture that utilizes image/video captioning methods and Natural Language Processing systems to generate a title and a concise abstract for a video. Such a system can potentially be utilized in many application domains, including, the cinema industry, video search engines, security surveillance, video databases/warehouses, data centers, and others. The proposed system functions and operates as followed: it reads a video; representative image frames are identified and selected; the image frames are captioned; NLP is applied to all generated captions together with text summarization; and finally, a title and an abstract are generated for the video. All functions are performed automatically. Preliminary results are provided in this paper using publicly available datasets. This paper is not concerned about the efficiency of the system at the execution time. We hope to be able to address execution efficiency issues in our subsequent publications.
Abstract（参考訳）: 過去10年間で、多くのアプリケーションでDeep Learningを使用することで、人間の専門家のパフォーマンスに匹敵する結果が得られました。アプリケーションドメインには、病気の診断、金融、農業、検索エンジン、ロボットビジョンなどが含まれる。本稿では,ビデオのタイトルと簡潔な要約を生成するために,画像・映像キャプション手法と自然言語処理システムを利用したアーキテクチャを提案する。このようなシステムは、映画産業、ビデオ検索エンジン、セキュリティ監視、ビデオデータベース/ウェアハウス、データセンターなど、多くのアプリケーション領域で利用することができる。提案システムでは,ビデオの読み出し,代表画像フレームの識別と選択,画像フレームのキャプション,テキスト要約と合わせて生成されたすべてのキャプションにNLPを適用し,最後にビデオのタイトルと要約を生成する。全ての機能は自動的に実行される。本稿では,公開データセットを用いた予備結果について述べる。本論文は,実行時のシステムの効率を考慮しない。今後の出版物で実行効率の問題に対処できることを願っています。

関連論文リスト

Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。 i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文参考訳（メタデータ） (2024-04-26T15:56:08Z)
OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文参考訳（メタデータ） (2024-03-26T17:59:24Z)
Rethinking CLIP-based Video Learners in Cross-Domain Open-Vocabulary Action Recognition [84.31749632725929]
本稿では,この課題の1つの重要な課題,すなわちシーンバイアスに着目し,新しいシーン対応ビデオテキストアライメント手法を提案する。我々のキーとなる考え方は、映像表現とシーン符号化されたテキスト表現とを区別し、シーンに依存しないビデオ表現を学習し、ドメイン間のアクションを認識することである。
論文参考訳（メタデータ） (2024-03-03T16:48:16Z)
Video Summarization: Towards Entity-Aware Captions [73.28063602552741]
本稿では,ニュース映像をエンティティ対応キャプションに直接要約するタスクを提案する。提案手法は,既存のニュース画像キャプションデータセットに一般化されていることを示す。
論文参考訳（メタデータ） (2023-12-01T23:56:00Z)
Contrastive Graph Multimodal Model for Text Classification in Videos [9.218562155255233]
我々は、マルチモーダル情報を融合させることで、ビデオテキスト分類の新しい課題に最初に対処する。レイアウト情報を明示的に抽出することで特徴表現を強化するために、相関ネットと呼ばれる特定のモジュールを調整します。我々は、ビデオテキスト認識および分類アプリケーションの構築と評価を目的とした、TI-Newsと呼ばれるニュースドメインから、明確に定義された新しい産業データセットを構築した。
論文参考訳（メタデータ） (2022-06-06T04:06:21Z)
Reading-strategy Inspired Visual Representation Learning for Text-to-Video Retrieval [41.420760047617506]
クロスモーダル表現学習は、ビデオと文の両方を、意味的類似性のための共通空間に計画する。人間の読み方から着想を得た映像表現学習(RIVRL)を提案する。我々のモデル RIVRL は TGIF と VATEX の新たな最先端を実現する。
論文参考訳（メタデータ） (2022-01-23T03:38:37Z)
An Integrated Approach for Video Captioning and Applications [2.064612766965483]
ビデオのキャプションにより、長いビデオに適用するためのハイブリッドなディープラーニングアーキテクチャを設計する。我々は、画像、ビデオ、自然言語をリンクすることは、多くの実用的な利点と即時的な実践的応用をもたらすと論じている。
論文参考訳（メタデータ） (2022-01-23T01:06:00Z)
A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文参考訳（メタデータ） (2021-07-02T15:51:07Z)
Learning Video Representations from Textual Web Supervision [97.78883761035557]
本稿では,映像表現の学習方法としてテキストを用いることを提案する。我々は、インターネット上で公開されている7000万の動画クリップを収集し、各ビデオと関連するテキストをペアリングするモデルを訓練する。提案手法は,映像表現の事前学習に有効な方法であることがわかった。
論文参考訳（メタデータ） (2020-07-29T16:19:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。