Fugu-MT 論文翻訳(概要): Video captioning with stacked attention and semantic hard pull

論文の概要: Video captioning with stacked attention and semantic hard pull

arxiv url: http://arxiv.org/abs/2009.07335v3
Date: Fri, 16 Jul 2021 18:06:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-18 06:23:22.623575
Title: Video captioning with stacked attention and semantic hard pull
Title（参考訳）: 重み付き注意と意味的ハードプルによるビデオキャプション
Authors: Md. Mushfiqur Rahman, Thasin Abedin, Khondokar S. S. Prottoy, Ayana Moshruba, Fazlul Hasan Siddiqui
Abstract要約: ビデオの意味論的に正確な記述を生成するタスクは非常に複雑です。本稿では,Semantically Sensible Video Captioning(SSVC)という新しいアーキテクチャを提案する。論文は、新奇性の使用が最先端アーキテクチャの性能を向上させることを報告している。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video captioning, i.e. the task of generating captions from video sequences creates a bridge between the Natural Language Processing and Computer Vision domains of computer science. The task of generating a semantically accurate description of a video is quite complex. Considering the complexity, of the problem, the results obtained in recent research works are praiseworthy. However, there is plenty of scope for further investigation. This paper addresses this scope and proposes a novel solution. Most video captioning models comprise two sequential/recurrent layers - one as a video-to-context encoder and the other as a context-to-caption decoder. This paper proposes a novel architecture, namely Semantically Sensible Video Captioning (SSVC) which modifies the context generation mechanism by using two novel approaches - "stacked attention" and "spatial hard pull". As there are no exclusive metrics for evaluating video captioning models, we emphasize both quantitative and qualitative analysis of our model. Hence, we have used the BLEU scoring metric for quantitative analysis and have proposed a human evaluation metric for qualitative analysis, namely the Semantic Sensibility (SS) scoring metric. SS Score overcomes the shortcomings of common automated scoring metrics. This paper reports that the use of the aforementioned novelties improves the performance of state-of-the-art architectures.
Abstract（参考訳）: ビデオキャプション、すなわち、ビデオシーケンスからキャプションを生成するタスクは、自然言語処理とコンピュータ科学のコンピュータビジョンドメインの間の橋渡しとなる。ビデオの意味的に正確な記述を生成する作業は非常に複雑である。問題の複雑さを考えると、最近の研究で得られた結果は賞賛に値する。しかし、さらなる調査には十分な範囲がある。本稿では,この範囲について論じ,新しい解決法を提案する。ほとんどのビデオキャプションモデルは、2つのシーケンシャル/リカレント層で構成されている。本稿では,2つの新しいアプローチ "スタックド・アテンション" と "空間ハードプル" を用いてコンテキスト生成機構を改良した,セマンティック・センシティブル・ビデオ・キャプション(SSVC)を提案する。ビデオキャプションモデルの評価には専用の指標がないため,本モデルの定量的・質的分析を強調する。そこで我々は,BLEU測定基準を定量的分析に用い,定性分析のための人的評価基準,すなわちセマンティック・センシティビリティー(SS)評価指標を提案した。 SS Scoreは、一般的な自動スコアリングメトリクスの欠点を克服する。本稿では,先述の斬新さを用いることで,最先端アーキテクチャの性能が向上することを示す。

関連論文リスト

VideoMultiAgents: A Multi-Agent Framework for Video Question Answering [11.514596823413736]
Video Question Answering (VQA) は本質的にマルチモーダル推論に依存している。本稿では,視覚,シーングラフ解析,テキスト処理などの特殊エージェントを統合するフレームワークであるVideoMultiAgentsを紹介する。提案手法は, 対象, 行動, 時間的遷移をハイライトするキャプションを生成する, 質問誘導キャプション生成を補足する。
論文参考訳（メタデータ） (2025-04-25T22:08:09Z)
The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning [89.64905703368255]
ゼロショットビデオキャプションのためのプログレッシブな多粒性テキストプロンプト戦略を提案する。提案手法は,名詞句,名詞句のシーングラフ,全文を含む3つの異なる記憶バンクを構築する。
論文参考訳（メタデータ） (2025-03-31T03:00:19Z)
AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark [73.62572976072578]
大規模なマルチモーダルモデルに基づくビデオキャプタであるAuroraCapを提案する。トークンマージ戦略を実装し、入力されたビジュアルトークンの数を減らす。 AuroraCapは、様々なビデオおよび画像キャプションベンチマークで優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-10-04T00:13:54Z)
BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues [47.213906345208315]
本稿では,新たな学習可能かつ参照不要な画像キャプション指標BRIDGEを提案する。提案手法は,既存の基準フリー評価スコアと比較して,最先端の結果が得られる。
論文参考訳（メタデータ） (2024-07-29T18:00:17Z)
Live Video Captioning [0.6291443816903801]
オンラインで動画ストリームにキャプションを生成しなければならないLive Video Captioning (LVC) という,画期的なパラダイムを紹介した。我々は,LVCの新たな課題を正式に定義し,このオンラインシナリオに特化して設計された革新的な評価指標を提案する。本稿では,変形可能な変換器と時間的フィルタリングを組み合わせた新しいモデルを提案する。
論文参考訳（メタデータ） (2024-06-20T11:25:16Z)
RTQ: Rethinking Video-language Understanding Based on Image-text Model [55.278942477715084]
ビデオ言語理解は、非常に複雑なセマンティックな詳細を含んでいるため、ユニークな課題を提示する。本稿では,これらの課題を同時に解決するRTQという新しいフレームワークを提案する。本モデルは,ビデオ言語による事前学習がなくても,優れた性能を示す。
論文参考訳（メタデータ） (2023-12-01T04:51:01Z)
Self-Chained Image-Language Model for Video Localization and Question Answering [66.86740990630433]
ビデオ上での時間的ローカライゼーションとQAに対処するために,SeViLA(Se-Chained Video-Answering)フレームワークを提案する。 SeViLAフレームワークはLocalizerとAnswererの2つのモジュールで構成されている。
論文参考訳（メタデータ） (2023-05-11T17:23:00Z)
Discriminative Latent Semantic Graph for Video Captioning [24.15455227330031]
ビデオキャプションは、あるビデオの視覚的内容を記述する自然言語文を自動的に生成することを目的としている。我々の主な貢献は、将来のビデオ要約タスクのための統合フレームワークにおける3つの重要な問題を特定することである。
論文参考訳（メタデータ） (2021-08-08T15:11:20Z)
Contrastive Semantic Similarity Learning for Image Captioning Evaluation with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文参考訳（メタデータ） (2021-06-29T12:27:05Z)
Fill-in-the-blank as a Challenging Video Understanding Evaluation Framework [19.031957183047048]
28,000の動画と補足テストからなる新しいデータセットを導入する。マルチモーダルモデルと強力な言語モデルの両方が、人間のパフォーマンスに大きなギャップがあることが示される。
論文参考訳（メタデータ） (2021-04-09T04:00:10Z)
Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文参考訳（メタデータ） (2020-12-14T08:36:05Z)
Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文参考訳（メタデータ） (2020-05-13T16:35:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。