論文の概要: Boosting Video Captioning with Dynamic Loss Network
- arxiv url: http://arxiv.org/abs/2107.11707v1
- Date: Sun, 25 Jul 2021 01:32:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 02:59:50.499482
- Title: Boosting Video Captioning with Dynamic Loss Network
- Title(参考訳): ダイナミックロスネットワークによるビデオキャプションの高速化
- Authors: Nasibullah, Partha Pratim Mohanta
- Abstract要約: 本稿では,動的損失ネットワーク(DLN)の導入による欠点に対処する。
Microsoft Research Video Description Corpus (MSVD) と MSR-Video to Text (MSRVTT) のデータセットは,従来の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video captioning is one of the challenging problems at the intersection of
vision and language, having many real-life applications in video retrieval,
video surveillance, assisting visually challenged people, Human-machine
interface, and many more. Recent deep learning-based methods have shown
promising results but are still on the lower side than other vision tasks (such
as image classification, object detection). A significant drawback with
existing video captioning methods is that they are optimized over cross-entropy
loss function, which is uncorrelated to the de facto evaluation metrics (BLEU,
METEOR, CIDER, ROUGE).In other words, cross-entropy is not a proper surrogate
of the true loss function for video captioning. This paper addresses the
drawback by introducing a dynamic loss network (DLN), which provides an
additional feedback signal that directly reflects the evaluation metrics. Our
results on Microsoft Research Video Description Corpus (MSVD) and MSR-Video to
Text (MSRVTT) datasets outperform previous methods.
- Abstract(参考訳): ビデオキャプションは、映像検索、ビデオ監視、視覚障害者支援、人間と機械のインターフェイスなど、多くの現実のアプリケーションを持つビジョンと言語の交差点における困難な問題の1つだ。
近年の深層学習に基づく手法は有望な結果を示しているが、他の視覚タスク(画像分類、物体検出など)よりもまだ下位にある。
既存のビデオキャプション手法の重大な欠点は、デファクト評価指標(BLEU, METEOR, CIDER, ROUGE)とは無関係なクロスエントロピー損失関数に最適化されることである。
本稿では,評価指標を直接反映したフィードバック信号を提供する動的損失ネットワーク(DLN)を導入することで,その欠点に対処する。
Microsoft Research Video Description Corpus (MSVD) と MSR-Video to Text (MSRVTT) のデータセットは,従来の手法よりも優れていた。
関連論文リスト
- Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies [69.28082193942991]
本稿では、これまで見過ごされていた2つの重要なビデオ推論スキルを探索するためのテストベッドとして設計された、新しいデータセットであるTropes in Movies (TiM)を紹介する。
映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。
これらの欠陥に対処するために、FEVoRI(Face-Enhanced Viper of Role Interactions)とConQueR(Context Query Reduction)を提案する。
論文 参考訳(メタデータ) (2024-06-16T12:58:31Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - MAViC: Multimodal Active Learning for Video Captioning [8.454261564411436]
本稿では,映像キャプションにおけるアクティブな学習手法の課題に対処するためにMAViCを紹介する。
本手法は,獲得関数における視覚的,言語的両次元のセマンティックな類似性と不確実性を統合する。
論文 参考訳(メタデータ) (2022-12-11T18:51:57Z) - RaP: Redundancy-aware Video-language Pre-training for Text-Video
Retrieval [61.77760317554826]
冗長性を考慮したビデオ言語事前学習を提案する。
我々は,ビデオパッチとテキストトークンの冗長性の測定を,クロスモーダルな最小相似性を計算することによって設計する。
提案手法はMSRVTT, MSVD, DiDeMo, LSMDCの4つのベンチマークデータセットを用いて評価した。
論文 参考訳(メタデータ) (2022-10-13T10:11:41Z) - Learning video retrieval models with relevance-aware online mining [16.548016892117083]
典型的なアプローチは、ビデオと関連するキャプションの類似性を最大化する、共同のテキスト-ビデオ埋め込み空間を学習することである。
このアプローチでは、データセット内のビデオとキャプションペアのみが有効であると仮定するが、異なるキャプション — 肯定的な — もまたその視覚的内容を記述する可能性があるため、そのいくつかは誤って罰せられる可能性がある。
本稿では, 負のセマンティクスに基づいて, それらの選択を改善するとともに, 有効正の類似性を高めることを目的として, RANP(Relevance-Aware Negatives and Positives mining)を提案する。
論文 参考訳(メタデータ) (2022-03-16T15:23:55Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Multi-modality Deep Restoration of Extremely Compressed Face Videos [36.83490465562509]
我々は,積極的に圧縮された顔映像を復元するための多モードディープ畳み込みニューラルネットワーク手法を開発した。
主な革新は、複数のモダリティの既知の事前を組み込んだ新しいDCNNアーキテクチャである。
フェースビデオ上でのDCNN手法の優れた性能を実証するために, 実験的な証拠を多数提示した。
論文 参考訳(メタデータ) (2021-07-05T16:29:02Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z) - Learning the Loss Functions in a Discriminative Space for Video
Restoration [48.104095018697556]
本稿では,映像復元作業に特有の識別空間を学習し,効果的な損失関数を構築するための新しい枠組みを提案する。
私たちのフレームワークは、ジェネレータと損失ネットワークという2つのネットワークを反復的にトレーニングするという点で、GANと似ています。
ビデオスーパーレゾリューションとデブロワーリングの実験により,我々の手法がより視覚的に楽しいビデオを生成することが示された。
論文 参考訳(メタデータ) (2020-03-20T06:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。