論文の概要: Learning a Grammar Inducer from Massive Uncurated Instructional Videos
- arxiv url: http://arxiv.org/abs/2210.12309v1
- Date: Sat, 22 Oct 2022 00:22:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 14:48:57.237475
- Title: Learning a Grammar Inducer from Massive Uncurated Instructional Videos
- Title(参考訳): 膨大な教師ビデオからの文法インデューサの学習
- Authors: Songyang Zhang, Linfeng Song, Lifeng Jin, Haitao Mi, Kun Xu, Dong Yu
and Jiebo Luo
- Abstract要約: 映像支援文法帰納法は,映像情報を利用してより正確な構文文法を検索することを目的としている。
我々は手動で設計した機能なしでビデオスパン相関をよりよく学習できる新しいモデルを構築した。
我々のモデルは、ドメイン内のデータに基づいてトレーニングされた従来の最先端システムよりも高いF1スコアが得られる。
- 参考スコア(独自算出の注目度): 118.7279072358029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-aided grammar induction aims to leverage video information for finding
more accurate syntactic grammars for accompanying text. While previous work
focuses on building systems for inducing grammars on text that are well-aligned
with video content, we investigate the scenario, in which text and video are
only in loose correspondence. Such data can be found in abundance online, and
the weak correspondence is similar to the indeterminacy problem studied in
language acquisition. Furthermore, we build a new model that can better learn
video-span correlation without manually designed features adopted by previous
work. Experiments show that our model trained only on large-scale YouTube data
with no text-video alignment reports strong and robust performances across
three unseen datasets, despite domain shift and noisy label issues. Furthermore
our model yields higher F1 scores than the previous state-of-the-art systems
trained on in-domain data.
- Abstract(参考訳): 映像支援文法帰納法は,映像情報を利用してより正確な構文文法を見つけることを目的としている。
従来の研究は,ビデオコンテンツとよく一致するテキストの文法を誘導するシステムの構築に重点を置いているが,テキストとビデオがゆるやかな対応しか持たないシナリオについて検討する。
このようなデータはネット上に多数存在し、弱い対応は言語習得における不確定性問題と類似している。
さらに,従来の作業で手作業で設計した機能を使わずに,ビデオスパン相関をよりよく学習できる新しいモデルを構築した。
実験によると、我々のモデルは、ドメインシフトやノイズの多いラベルの問題にもかかわらず、3つの目に見えないデータセットに対して、テキストビデオアライメントを伴わない大規模なYouTubeデータのみをトレーニングした。
さらに、本モデルは、ドメイン内データでトレーニングされた以前の最先端システムよりも高いf1スコアが得られる。
関連論文リスト
- Contrastive Graph Multimodal Model for Text Classification in Videos [9.218562155255233]
我々は、マルチモーダル情報を融合させることで、ビデオテキスト分類の新しい課題に最初に対処する。
レイアウト情報を明示的に抽出することで特徴表現を強化するために、相関ネットと呼ばれる特定のモジュールを調整します。
我々は、ビデオテキスト認識および分類アプリケーションの構築と評価を目的とした、TI-Newsと呼ばれるニュースドメインから、明確に定義された新しい産業データセットを構築した。
論文 参考訳(メタデータ) (2022-06-06T04:06:21Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチモーダルコントラストモデルは、画像やビデオ、テキストのエンティティの整合に非常に効果的であることが示されている。
これらの2行のモデルを多チャンネルビデオ言語検索スタイルのタスクに迅速に適応する方法は明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - TunBERT: Pretrained Contextualized Text Representation for Tunisian
Dialect [0.0]
表現不足言語に対するモノリンガルトランスフォーマーに基づく言語モデルのトレーニングの実現可能性について検討する。
構造化データの代わりにノイズの多いWebクローリングデータを使用することは、そのような非標準言語にとってより便利であることを示す。
我々の最高のパフォーマンスTunBERTモデルは、下流の3つのタスクすべてにおいて最先端のタスクに到達または改善します。
論文 参考訳(メタデータ) (2021-11-25T15:49:50Z) - Video-aided Unsupervised Grammar Induction [108.53765268059425]
ラベルのないテキストと対応するビデオの両方から構成を学習するビデオ支援文法インダクションについて検討する。
ビデオは、静的オブジェクトだけでなく、動詞句を誘導するのに有用なアクションや状態の変更を含む、さらに豊富な情報を提供します。
マルチモードコンパウンドPCFGモデル(MMC-PCFG)を提案し,これらの豊富な特徴を異なるモダリティから効果的に集約する。
論文 参考訳(メタデータ) (2021-04-09T14:01:36Z) - CUPID: Adaptive Curation of Pre-training Data for Video-and-Language
Representation Learning [49.18591896085498]
ソースデータとターゲットデータのドメインギャップを埋めるCUPIDを提案します。
CUPIDは、複数のビデオ言語およびビデオタスクにまたがる最新のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-04-01T06:42:16Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。