論文の概要: Video Captioning Using Weak Annotation
- arxiv url: http://arxiv.org/abs/2009.01067v1
- Date: Wed, 2 Sep 2020 13:45:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 18:34:24.717698
- Title: Video Captioning Using Weak Annotation
- Title(参考訳): 弱アノテーションを用いたビデオキャプション
- Authors: Jingyi Hou, Yunde Jia, Xinxiao wu, Yayun Qi
- Abstract要約: ビデオキャプションモデルのトレーニングにおいて,強いアノテーションの代わりに弱いアノテーションを用いて検討する。
概念関係をモデル化するために,大文コーパスから外部知識を活用できる依存関係木を用いる。
本研究では,係り受け木を分散し,キャプションモデルを微調整することで文を洗練する反復改良アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 41.80922782183158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video captioning has shown impressive progress in recent years. One key
reason of the performance improvements made by existing methods lie in massive
paired video-sentence data, but collecting such strong annotation, i.e.,
high-quality sentences, is time-consuming and laborious. It is the fact that
there now exist an amazing number of videos with weak annotation that only
contains semantic concepts such as actions and objects. In this paper, we
investigate using weak annotation instead of strong annotation to train a video
captioning model. To this end, we propose a progressive visual reasoning method
that progressively generates fine sentences from weak annotations by inferring
more semantic concepts and their dependency relationships for video captioning.
To model concept relationships, we use dependency trees that are spanned by
exploiting external knowledge from large sentence corpora. Through traversing
the dependency trees, the sentences are generated to train the captioning
model. Accordingly, we develop an iterative refinement algorithm that refines
sentences via spanning dependency trees and fine-tunes the captioning model
using the refined sentences in an alternative training manner. Experimental
results demonstrate that our method using weak annotation is very competitive
to the state-of-the-art methods using strong annotation.
- Abstract(参考訳): ビデオキャプションは近年顕著な進歩を見せている。
既存の手法によるパフォーマンス改善の鍵となる理由は、大量のペア化されたビデオ文データにあるが、そのような強力なアノテーション、すなわち高品質な文の収集は、時間と労力を要する。
アクションやオブジェクトといった意味的な概念のみを含む、弱い注釈を持つビデオが、今や驚くほど存在するという事実です。
本稿では,ビデオキャプションモデルの訓練に強いアノテーションの代わりに弱いアノテーションを用いることを検討する。
そこで本研究では,より意味的な概念と映像キャプションに対する依存性を推論することにより,弱いアノテーションから細かな文を段階的に生成するプログレッシブビジュアル推論手法を提案する。
概念関係をモデル化するために,大文コーパスから外部知識を活用できる依存関係木を用いる。
依存関係ツリーをトラバースすることで文を生成し、キャプションモデルをトレーニングする。
そこで本研究では,文を分割依存木を用いて洗練する反復的精錬アルゴリズムを開発し,その代替的な訓練手法を用いてキャプションモデルを微調整する。
実験により, 弱いアノテーションを用いた手法は, 強いアノテーションを用いた最先端手法と非常に競合することを示した。
関連論文リスト
- Pseudo-labeling with Keyword Refining for Few-Supervised Video Captioning [42.0725330677271]
本稿では,語彙制約付き擬似ラベルモジュールとキーワード修正字幕モジュールからなる動画キャプションフレームワークを提案する。
いくつかのベンチマークの実験では、少数の教師付きシナリオと完全な教師付きシナリオの両方において提案されたアプローチの利点を実証している。
論文 参考訳(メタデータ) (2024-11-06T17:11:44Z) - On-the-Fly Point Annotation for Fast Medical Video Labeling [1.890063512530524]
医学研究において、ディープラーニングモデルは高品質な注釈付きデータに依存している。
2つのコーナーを調整する必要があるため、プロセスは本質的にフレーム単位で行われる。
そこで本研究では,ライブビデオアノテーションのオンザフライ方式を提案し,アノテーションの効率を向上させる。
論文 参考訳(メタデータ) (2024-04-22T16:59:43Z) - How to Efficiently Annotate Images for Best-Performing Deep Learning
Based Segmentation Models: An Empirical Study with Weak and Noisy Annotations
and Segment Anything Model [18.293057751504122]
ディープニューラルネットワーク(DNN)は多くのイメージセグメンテーションタスクにデプロイされ、優れたパフォーマンスを実現している。
セグメンテーションをトレーニングするためのデータセットを作成するのは面倒で費用がかかる。
この問題を緩和するためには、バウンディングボックスやスクリブルのような弱いラベルのみを提供するか、オブジェクトのより正確な(ノイズの多い)アノテーションを提供することができる。
論文 参考訳(メタデータ) (2023-12-17T04:26:42Z) - Verbs in Action: Improving verb understanding in video-language models [128.87443209118726]
CLIPに基づく最先端のビデオ言語モデルは、動詞の理解が限られていることが示されている。
我々は,CLIPに基づくビデオ言語モデルの動詞理解を改善するために,新しいVerb-Focused Contrastiveフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:57:01Z) - Implicit and Explicit Commonsense for Multi-sentence Video Captioning [33.969215964292395]
本稿では,暗黙的(視覚言語と純粋言語)と明示的(知識ベース)のコモンセンス知識を考慮に入れた,トランスフォーマーに基づく新しいビデオキャプションモデルを提案する。
我々は,これらの形態の知識が,単独で,かつ組み合わせて,生成したキャプションの品質を高めることを示す。
論文 参考訳(メタデータ) (2023-03-14T00:19:11Z) - Exploiting Auxiliary Caption for Video Grounding [66.77519356911051]
ビデオグラウンディングは、あるクエリ文にマッチする興味のある瞬間を、トリミングされていないビデオから見つけることを目的としている。
以前の作業では、潜在的なイベントとデータセット内のクエリ文の間のコンテキスト情報の提供に失敗する、ビデオアノテーションの疎度ジレンマを無視していた。
具体的には、まず高密度なキャプションを生成し、次に非補助的なキャプション抑制(NACS)によって補助的なキャプションを得る。
補助キャプションにおける潜在的な情報を取得するために,補助キャプション間の意味的関係を計画するキャプションガイド注意(CGA)を提案する。
論文 参考訳(メタデータ) (2023-01-15T02:04:02Z) - Cross-Sentence Temporal and Semantic Relations in Video Activity
Localisation [79.50868197788773]
我々は、クロスセンスリレーショナルマイニングを導入して、より正確な教師付きソリューションを開発する。
本稿では,(1)トリミング順序付けと(2)ビデオ活動の段落記述における文間の意味的一貫性の2つの横断的関係性制約について検討する。
2つのパブリックなアクティビティローカライゼーションデータセットの実験は、最先端の弱い教師付き手法に対する我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2021-07-23T20:04:01Z) - Annotation Curricula to Implicitly Train Non-Expert Annotators [56.67768938052715]
自発的な研究は、しばしば、アノテータがタスク、そのアノテーションスキーム、およびデータドメインに精通することを要求する。
これは最初は圧倒的であり、精神的に課税され、結果として生じるアノテーションにエラーを誘導する。
暗黙的にアノテータを訓練する新しい手法であるアノテーションキュリキュラを提案する。
論文 参考訳(メタデータ) (2021-06-04T09:48:28Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。