論文の概要: Video-aided Unsupervised Grammar Induction
- arxiv url: http://arxiv.org/abs/2104.04369v1
- Date: Fri, 9 Apr 2021 14:01:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 14:13:24.404709
- Title: Video-aided Unsupervised Grammar Induction
- Title(参考訳): ビデオ支援非教師なし文法インダクション
- Authors: Songyang Zhang, Linfeng Song, Lifeng Jin, Kun Xu, Dong Yu, Jiebo Luo
- Abstract要約: ラベルのないテキストと対応するビデオの両方から構成を学習するビデオ支援文法インダクションについて検討する。
ビデオは、静的オブジェクトだけでなく、動詞句を誘導するのに有用なアクションや状態の変更を含む、さらに豊富な情報を提供します。
マルチモードコンパウンドPCFGモデル(MMC-PCFG)を提案し,これらの豊富な特徴を異なるモダリティから効果的に集約する。
- 参考スコア(独自算出の注目度): 108.53765268059425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate video-aided grammar induction, which learns a constituency
parser from both unlabeled text and its corresponding video. Existing methods
of multi-modal grammar induction focus on learning syntactic grammars from
text-image pairs, with promising results showing that the information from
static images is useful in induction. However, videos provide even richer
information, including not only static objects but also actions and state
changes useful for inducing verb phrases. In this paper, we explore rich
features (e.g. action, object, scene, audio, face, OCR and speech) from videos,
taking the recent Compound PCFG model as the baseline. We further propose a
Multi-Modal Compound PCFG model (MMC-PCFG) to effectively aggregate these rich
features from different modalities. Our proposed MMC-PCFG is trained end-to-end
and outperforms each individual modality and previous state-of-the-art systems
on three benchmarks, i.e. DiDeMo, YouCook2 and MSRVTT, confirming the
effectiveness of leveraging video information for unsupervised grammar
induction.
- Abstract(参考訳): 本研究では,未ラベルテキストとその対応映像から構成構文解析を学習するビデオ支援文法インダクションについて検討する。
既存のマルチモーダル文法帰納法は,テキストイメージ対から構文文法を学ぶことに集中しており,静的画像からの情報が帰属に有用であることを示す有望な結果である。
しかし、ビデオは静的なオブジェクトだけでなく、動詞句を誘導するのに有用なアクションや状態変化を含む、より豊かな情報を提供する。
本稿では,リッチな特徴(例えば)を探求する。
アクション、オブジェクト、シーン、オーディオ、顔、OCR、スピーチ) ビデオから、最近の複合PCFGモデルをベースラインとします。
さらに,これらのリッチな特徴を異なるモダリティから効果的に集約するマルチモーダル複合pcfgモデル(mmc-pcfg)を提案する。
提案したMCC-PCFGは、エンドツーエンドで訓練され、3つのベンチマークで個々のモダリティと従来の最先端システムよりも優れています。
DiDeMo, YouCook2, MSRVTT は教師なし文法誘導における映像情報の活用の有効性を確認した。
関連論文リスト
- Multi-Modal interpretable automatic video captioning [1.9874264019909988]
マルチモーダル・コントラッシブ・ロスを訓練した新しいビデオキャプション手法を提案する。
我々のアプローチは、これらのモダリティ間の依存関係を捉えるために設計されており、その結果、より正確で、従って関連するキャプションとなる。
論文 参考訳(メタデータ) (2024-11-11T11:12:23Z) - Grammar Induction from Visual, Speech and Text [91.98797120799227]
本研究は、新しい視覚音声テキスト文法誘導タスク(textbfVAT-GI)を導入する。
言語文法がテキストを超えて存在するという事実に触発されて、テキストは文法帰納において支配的なモダリティであってはならないと論じる。
そこで本稿では,豊富なモーダル特化機能と補完機能を有効文法解析に活用した,ビジュアル・オーディオ・テキスト・インサイド・アウトサイド・オートエンコーダ(textbfVaTiora)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-01T02:24:18Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial
Margin Contrastive Learning [35.404100473539195]
テキストビデオ検索は、関係のないものよりも関連のあるテキストや動画をランク付けすることを目的としている。
最近のコントラスト学習手法は,テキストビデオ検索に有望な結果を示している。
本稿では2つの新しい手法を用いてコントラスト学習を改善する。
論文 参考訳(メタデータ) (2023-09-20T06:08:11Z) - Learning a Grammar Inducer from Massive Uncurated Instructional Videos [118.7279072358029]
映像支援文法帰納法は,映像情報を利用してより正確な構文文法を検索することを目的としている。
我々は手動で設計した機能なしでビデオスパン相関をよりよく学習できる新しいモデルを構築した。
我々のモデルは、ドメイン内のデータに基づいてトレーニングされた従来の最先端システムよりも高いF1スコアが得られる。
論文 参考訳(メタデータ) (2022-10-22T00:22:55Z) - TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment [68.08689660963468]
Token-Aware Cascade contrastive Learning (TACo)と呼ばれる新しいアルゴリズムは、2つの新しい手法を用いてコントラスト学習を改善する。
そこで我々は,YouCook2,MSR-VTT,ActivityNetの3つの公開テキストビデオ検索ベンチマークに最先端を新たに設定した。
論文 参考訳(メタデータ) (2021-08-23T07:24:57Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。