論文の概要: Video Captioning Using Weak Annotation
- arxiv url: http://arxiv.org/abs/2009.01067v1
- Date: Wed, 2 Sep 2020 13:45:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 18:34:24.717698
- Title: Video Captioning Using Weak Annotation
- Title(参考訳): 弱アノテーションを用いたビデオキャプション
- Authors: Jingyi Hou, Yunde Jia, Xinxiao wu, Yayun Qi
- Abstract要約: ビデオキャプションモデルのトレーニングにおいて,強いアノテーションの代わりに弱いアノテーションを用いて検討する。
概念関係をモデル化するために,大文コーパスから外部知識を活用できる依存関係木を用いる。
本研究では,係り受け木を分散し,キャプションモデルを微調整することで文を洗練する反復改良アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 41.80922782183158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video captioning has shown impressive progress in recent years. One key
reason of the performance improvements made by existing methods lie in massive
paired video-sentence data, but collecting such strong annotation, i.e.,
high-quality sentences, is time-consuming and laborious. It is the fact that
there now exist an amazing number of videos with weak annotation that only
contains semantic concepts such as actions and objects. In this paper, we
investigate using weak annotation instead of strong annotation to train a video
captioning model. To this end, we propose a progressive visual reasoning method
that progressively generates fine sentences from weak annotations by inferring
more semantic concepts and their dependency relationships for video captioning.
To model concept relationships, we use dependency trees that are spanned by
exploiting external knowledge from large sentence corpora. Through traversing
the dependency trees, the sentences are generated to train the captioning
model. Accordingly, we develop an iterative refinement algorithm that refines
sentences via spanning dependency trees and fine-tunes the captioning model
using the refined sentences in an alternative training manner. Experimental
results demonstrate that our method using weak annotation is very competitive
to the state-of-the-art methods using strong annotation.
- Abstract(参考訳): ビデオキャプションは近年顕著な進歩を見せている。
既存の手法によるパフォーマンス改善の鍵となる理由は、大量のペア化されたビデオ文データにあるが、そのような強力なアノテーション、すなわち高品質な文の収集は、時間と労力を要する。
アクションやオブジェクトといった意味的な概念のみを含む、弱い注釈を持つビデオが、今や驚くほど存在するという事実です。
本稿では,ビデオキャプションモデルの訓練に強いアノテーションの代わりに弱いアノテーションを用いることを検討する。
そこで本研究では,より意味的な概念と映像キャプションに対する依存性を推論することにより,弱いアノテーションから細かな文を段階的に生成するプログレッシブビジュアル推論手法を提案する。
概念関係をモデル化するために,大文コーパスから外部知識を活用できる依存関係木を用いる。
依存関係ツリーをトラバースすることで文を生成し、キャプションモデルをトレーニングする。
そこで本研究では,文を分割依存木を用いて洗練する反復的精錬アルゴリズムを開発し,その代替的な訓練手法を用いてキャプションモデルを微調整する。
実験により, 弱いアノテーションを用いた手法は, 強いアノテーションを用いた最先端手法と非常に競合することを示した。
関連論文リスト
- How to Efficiently Annotate Images for Best-Performing Deep Learning
Based Segmentation Models: An Empirical Study with Weak and Noisy Annotations
and Segment Anything Model [18.293057751504122]
ディープニューラルネットワーク(DNN)は多くのイメージセグメンテーションタスクにデプロイされ、優れたパフォーマンスを実現している。
セグメンテーションをトレーニングするためのデータセットを作成するのは面倒で費用がかかる。
この問題を緩和するためには、バウンディングボックスやスクリブルのような弱いラベルのみを提供するか、オブジェクトのより正確な(ノイズの多い)アノテーションを提供することができる。
論文 参考訳(メタデータ) (2023-12-17T04:26:42Z) - Verbs in Action: Improving verb understanding in video-language models [128.87443209118726]
CLIPに基づく最先端のビデオ言語モデルは、動詞の理解が限られていることが示されている。
我々は,CLIPに基づくビデオ言語モデルの動詞理解を改善するために,新しいVerb-Focused Contrastiveフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:57:01Z) - SELF-VS: Self-supervised Encoding Learning For Video Summarization [6.21295508577576]
本稿では,知識蒸留を用いてトランスフォーマーエンコーダを事前学習する自己教師型ビデオ表現学習手法を提案する。
提案手法は,フレーム重要度スコアに基づいて構築されたセマンティックビデオ表現と,映像分類を訓練したCNNから派生した表現とをマッチングする。
論文 参考訳(メタデータ) (2023-03-28T14:08:05Z) - Implicit and Explicit Commonsense for Multi-sentence Video Captioning [33.969215964292395]
本稿では,暗黙的(視覚言語と純粋言語)と明示的(知識ベース)のコモンセンス知識を考慮に入れた,トランスフォーマーに基づく新しいビデオキャプションモデルを提案する。
我々は,これらの形態の知識が,単独で,かつ組み合わせて,生成したキャプションの品質を高めることを示す。
論文 参考訳(メタデータ) (2023-03-14T00:19:11Z) - Syntax Customized Video Captioning by Imitating Exemplar Sentences [90.98221715705435]
SCVC(Syntax Customized Video Captioning)の新たなタスクについて紹介する。
SCVCは、ビデオの内容を意味的に記述するだけでなく、与えられた先行文を構文的に模倣する1つのキャプションを生成することを目的としている。
本稿では,構文解析と意味論的コヒーレントなビデオキャプションを生成するためのモデル機能を示す。
論文 参考訳(メタデータ) (2021-12-02T09:08:09Z) - Cross-Sentence Temporal and Semantic Relations in Video Activity
Localisation [79.50868197788773]
我々は、クロスセンスリレーショナルマイニングを導入して、より正確な教師付きソリューションを開発する。
本稿では,(1)トリミング順序付けと(2)ビデオ活動の段落記述における文間の意味的一貫性の2つの横断的関係性制約について検討する。
2つのパブリックなアクティビティローカライゼーションデータセットの実験は、最先端の弱い教師付き手法に対する我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2021-07-23T20:04:01Z) - Annotation Curricula to Implicitly Train Non-Expert Annotators [56.67768938052715]
自発的な研究は、しばしば、アノテータがタスク、そのアノテーションスキーム、およびデータドメインに精通することを要求する。
これは最初は圧倒的であり、精神的に課税され、結果として生じるアノテーションにエラーを誘導する。
暗黙的にアノテータを訓練する新しい手法であるアノテーションキュリキュラを提案する。
論文 参考訳(メタデータ) (2021-06-04T09:48:28Z) - Open-book Video Captioning with Retrieve-Copy-Generate Network [42.374461018847114]
本稿では,従来のビデオキャプションタスクを新たなパラダイム,すなわちOpen-book Video Captioningに変換する。
本稿では,プラグイン可能なビデオ・テキスト検索システムを構築し,学習コーパスからのヒントとして文を効率的に検索するRetrieve-Copy-Generateネットワークを提案する。
本フレームワークは,従来の検索手法とオルソドックスエンコーダデコーダ法を協調して,検索した文中の多様な表現を描画するだけでなく,ビデオの自然な,正確な内容を生成する。
論文 参考訳(メタデータ) (2021-03-09T08:17:17Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。