論文の概要: Video captioning with stacked attention and semantic hard pull
- arxiv url: http://arxiv.org/abs/2009.07335v3
- Date: Fri, 16 Jul 2021 18:06:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 06:23:22.623575
- Title: Video captioning with stacked attention and semantic hard pull
- Title(参考訳): 重み付き注意と意味的ハードプルによるビデオキャプション
- Authors: Md. Mushfiqur Rahman, Thasin Abedin, Khondokar S. S. Prottoy, Ayana
Moshruba, Fazlul Hasan Siddiqui
- Abstract要約: ビデオの意味論的に正確な記述を生成するタスクは非常に複雑です。
本稿では,Semantically Sensible Video Captioning(SSVC)という新しいアーキテクチャを提案する。
論文は、新奇性の使用が最先端アーキテクチャの性能を向上させることを報告している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video captioning, i.e. the task of generating captions from video sequences
creates a bridge between the Natural Language Processing and Computer Vision
domains of computer science. The task of generating a semantically accurate
description of a video is quite complex. Considering the complexity, of the
problem, the results obtained in recent research works are praiseworthy.
However, there is plenty of scope for further investigation. This paper
addresses this scope and proposes a novel solution. Most video captioning
models comprise two sequential/recurrent layers - one as a video-to-context
encoder and the other as a context-to-caption decoder. This paper proposes a
novel architecture, namely Semantically Sensible Video Captioning (SSVC) which
modifies the context generation mechanism by using two novel approaches -
"stacked attention" and "spatial hard pull". As there are no exclusive metrics
for evaluating video captioning models, we emphasize both quantitative and
qualitative analysis of our model. Hence, we have used the BLEU scoring metric
for quantitative analysis and have proposed a human evaluation metric for
qualitative analysis, namely the Semantic Sensibility (SS) scoring metric. SS
Score overcomes the shortcomings of common automated scoring metrics. This
paper reports that the use of the aforementioned novelties improves the
performance of state-of-the-art architectures.
- Abstract(参考訳): ビデオキャプション、すなわち、ビデオシーケンスからキャプションを生成するタスクは、自然言語処理とコンピュータ科学のコンピュータビジョンドメインの間の橋渡しとなる。
ビデオの意味的に正確な記述を生成する作業は非常に複雑である。
問題の複雑さを考えると、最近の研究で得られた結果は賞賛に値する。
しかし、さらなる調査には十分な範囲がある。
本稿では,この範囲について論じ,新しい解決法を提案する。
ほとんどのビデオキャプションモデルは、2つのシーケンシャル/リカレント層で構成されている。
本稿では,2つの新しいアプローチ "スタックド・アテンション" と "空間ハードプル" を用いてコンテキスト生成機構を改良した,セマンティック・センシティブル・ビデオ・キャプション(SSVC)を提案する。
ビデオキャプションモデルの評価には専用の指標がないため,本モデルの定量的・質的分析を強調する。
そこで我々は,BLEU測定基準を定量的分析に用い,定性分析のための人的評価基準,すなわちセマンティック・センシティビリティー(SS)評価指標を提案した。
SS Scoreは、一般的な自動スコアリングメトリクスの欠点を克服する。
本稿では,先述の斬新さを用いることで,最先端アーキテクチャの性能が向上することを示す。
関連論文リスト
- RTQ: Rethinking Video-language Understanding Based on Image-text Model [55.278942477715084]
ビデオ言語理解は、非常に複雑なセマンティックな詳細を含んでいるため、ユニークな課題を提示する。
本稿では,これらの課題を同時に解決するRTQという新しいフレームワークを提案する。
本モデルは,ビデオ言語による事前学習がなくても,優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-01T04:51:01Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Self-Chained Image-Language Model for Video Localization and Question
Answering [66.86740990630433]
ビデオ上での時間的ローカライゼーションとQAに対処するために,SeViLA(Se-Chained Video-Answering)フレームワークを提案する。
SeViLAフレームワークはLocalizerとAnswererの2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2023-05-11T17:23:00Z) - Discriminative Latent Semantic Graph for Video Captioning [24.15455227330031]
ビデオキャプションは、あるビデオの視覚的内容を記述する自然言語文を自動的に生成することを目的としている。
我々の主な貢献は、将来のビデオ要約タスクのための統合フレームワークにおける3つの重要な問題を特定することである。
論文 参考訳(メタデータ) (2021-08-08T15:11:20Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Fill-in-the-blank as a Challenging Video Understanding Evaluation
Framework [19.031957183047048]
28,000の動画と補足テストからなる新しいデータセットを導入する。
マルチモーダルモデルと強力な言語モデルの両方が、人間のパフォーマンスに大きなギャップがあることが示される。
論文 参考訳(メタデータ) (2021-04-09T04:00:10Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Contextualizing ASR Lattice Rescoring with Hybrid Pointer Network
Language Model [26.78064626111014]
自動音声認識システムを構築する際には,ビデオメタデータが提供する文脈情報を利用することができる。
まず、ビデオメタデータの文脈ベクトル表現を抽出するために注意に基づく手法を用い、これらの表現をニューラルネットワークモデルへの入力の一部として利用する。
次に,メタデータ中の単語の発生確率を明示的に補間する,ハイブリッドポインターネットワーク手法を提案する。
論文 参考訳(メタデータ) (2020-05-15T07:47:33Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。