論文の概要: Video captioning with stacked attention and semantic hard pull
- arxiv url: http://arxiv.org/abs/2009.07335v3
- Date: Fri, 16 Jul 2021 18:06:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 06:23:22.623575
- Title: Video captioning with stacked attention and semantic hard pull
- Title(参考訳): 重み付き注意と意味的ハードプルによるビデオキャプション
- Authors: Md. Mushfiqur Rahman, Thasin Abedin, Khondokar S. S. Prottoy, Ayana
Moshruba, Fazlul Hasan Siddiqui
- Abstract要約: ビデオの意味論的に正確な記述を生成するタスクは非常に複雑です。
本稿では,Semantically Sensible Video Captioning(SSVC)という新しいアーキテクチャを提案する。
論文は、新奇性の使用が最先端アーキテクチャの性能を向上させることを報告している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video captioning, i.e. the task of generating captions from video sequences
creates a bridge between the Natural Language Processing and Computer Vision
domains of computer science. The task of generating a semantically accurate
description of a video is quite complex. Considering the complexity, of the
problem, the results obtained in recent research works are praiseworthy.
However, there is plenty of scope for further investigation. This paper
addresses this scope and proposes a novel solution. Most video captioning
models comprise two sequential/recurrent layers - one as a video-to-context
encoder and the other as a context-to-caption decoder. This paper proposes a
novel architecture, namely Semantically Sensible Video Captioning (SSVC) which
modifies the context generation mechanism by using two novel approaches -
"stacked attention" and "spatial hard pull". As there are no exclusive metrics
for evaluating video captioning models, we emphasize both quantitative and
qualitative analysis of our model. Hence, we have used the BLEU scoring metric
for quantitative analysis and have proposed a human evaluation metric for
qualitative analysis, namely the Semantic Sensibility (SS) scoring metric. SS
Score overcomes the shortcomings of common automated scoring metrics. This
paper reports that the use of the aforementioned novelties improves the
performance of state-of-the-art architectures.
- Abstract(参考訳): ビデオキャプション、すなわち、ビデオシーケンスからキャプションを生成するタスクは、自然言語処理とコンピュータ科学のコンピュータビジョンドメインの間の橋渡しとなる。
ビデオの意味的に正確な記述を生成する作業は非常に複雑である。
問題の複雑さを考えると、最近の研究で得られた結果は賞賛に値する。
しかし、さらなる調査には十分な範囲がある。
本稿では,この範囲について論じ,新しい解決法を提案する。
ほとんどのビデオキャプションモデルは、2つのシーケンシャル/リカレント層で構成されている。
本稿では,2つの新しいアプローチ "スタックド・アテンション" と "空間ハードプル" を用いてコンテキスト生成機構を改良した,セマンティック・センシティブル・ビデオ・キャプション(SSVC)を提案する。
ビデオキャプションモデルの評価には専用の指標がないため,本モデルの定量的・質的分析を強調する。
そこで我々は,BLEU測定基準を定量的分析に用い,定性分析のための人的評価基準,すなわちセマンティック・センシティビリティー(SS)評価指標を提案した。
SS Scoreは、一般的な自動スコアリングメトリクスの欠点を克服する。
本稿では,先述の斬新さを用いることで,最先端アーキテクチャの性能が向上することを示す。
関連論文リスト
- AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark [73.62572976072578]
大規模なマルチモーダルモデルに基づくビデオキャプタであるAuroraCapを提案する。
トークンマージ戦略を実装し、入力されたビジュアルトークンの数を減らす。
AuroraCapは、様々なビデオおよび画像キャプションベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-04T00:13:54Z) - BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues [47.213906345208315]
本稿では,新たな学習可能かつ参照不要な画像キャプション指標BRIDGEを提案する。
提案手法は,既存の基準フリー評価スコアと比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-07-29T18:00:17Z) - RTQ: Rethinking Video-language Understanding Based on Image-text Model [55.278942477715084]
ビデオ言語理解は、非常に複雑なセマンティックな詳細を含んでいるため、ユニークな課題を提示する。
本稿では,これらの課題を同時に解決するRTQという新しいフレームワークを提案する。
本モデルは,ビデオ言語による事前学習がなくても,優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-01T04:51:01Z) - Self-Chained Image-Language Model for Video Localization and Question
Answering [66.86740990630433]
ビデオ上での時間的ローカライゼーションとQAに対処するために,SeViLA(Se-Chained Video-Answering)フレームワークを提案する。
SeViLAフレームワークはLocalizerとAnswererの2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2023-05-11T17:23:00Z) - Discriminative Latent Semantic Graph for Video Captioning [24.15455227330031]
ビデオキャプションは、あるビデオの視覚的内容を記述する自然言語文を自動的に生成することを目的としている。
我々の主な貢献は、将来のビデオ要約タスクのための統合フレームワークにおける3つの重要な問題を特定することである。
論文 参考訳(メタデータ) (2021-08-08T15:11:20Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Fill-in-the-blank as a Challenging Video Understanding Evaluation
Framework [19.031957183047048]
28,000の動画と補足テストからなる新しいデータセットを導入する。
マルチモーダルモデルと強力な言語モデルの両方が、人間のパフォーマンスに大きなギャップがあることが示される。
論文 参考訳(メタデータ) (2021-04-09T04:00:10Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。