論文の概要: Movie Box Office Prediction With Self-Supervised and Visually Grounded
Pretraining
- arxiv url: http://arxiv.org/abs/2304.10311v1
- Date: Thu, 20 Apr 2023 13:42:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 13:03:16.125751
- Title: Movie Box Office Prediction With Self-Supervised and Visually Grounded
Pretraining
- Title(参考訳): 自己教師と視覚的接地事前訓練による映画ボックスオフィス予測
- Authors: Qin Chao, Eunsoo Kim, Boyang Li
- Abstract要約: 本研究では,自己指導型事前学習がアクター,ディレクター,ユーザ生成コンテンツ関連キーワードの効果的な表現学習に与える影響について検討する。
35,794本の映画からなる大規模なデータセットの実験は、自己監督型トレーニングと視覚的グラウンドティングの大きな利点を示している。
- 参考スコア(独自算出の注目度): 3.0129184593285387
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Investments in movie production are associated with a high level of risk as
movie revenues have long-tailed and bimodal distributions. Accurate prediction
of box-office revenue may mitigate the uncertainty and encourage investment.
However, learning effective representations for actors, directors, and
user-generated content-related keywords remains a challenging open problem. In
this work, we investigate the effects of self-supervised pretraining and
propose visual grounding of content keywords in objects from movie posters as a
pertaining objective. Experiments on a large dataset of 35,794 movies
demonstrate significant benefits of self-supervised training and visual
grounding. In particular, visual grounding pretraining substantially improves
learning on movies with content keywords and achieves 14.5% relative
performance gains compared to a finetuned BERT model with identical
architecture.
- Abstract(参考訳): 映画製作への投資は、映画収入が長期的かつ二モーダルな分布を持つため、高いリスクを伴う。
ボックスオフ収益の正確な予測は不確実性を緩和し、投資を促進する可能性がある。
しかし、アクター、ディレクター、ユーザー生成コンテンツ関連キーワードの効果的な表現を学習することは、依然として難しい問題である。
本研究では,自己指導型事前学習の効果について検討し,映画ポスターからのコンテンツキーワードの視覚的グラウンド化を提案する。
35,794本の映画からなる大規模なデータセットの実験は、自己監督型トレーニングと視覚的グラウンドティングの大きな利点を示している。
特に、視覚的グラウンドトレーニングは、コンテンツキーワードで映画を学ぶことを大幅に改善し、同じアーキテクチャで微調整されたBERTモデルと比較して14.5%の性能向上を達成した。
関連論文リスト
- The Potential of Vision-Language Models for Content Moderation of
Children's Videos [1.0589208420411014]
本稿では、文脈固有の言語がコンテンツモデレーション性能にどのように影響するかを詳細に分析する。
コンテンツモデレーションのプロンプトにもっとコンテキストを含めることが重要です。
論文 参考訳(メタデータ) (2023-12-06T22:29:16Z) - MoviePuzzle: Visual Narrative Reasoning through Multimodal Order
Learning [54.73173491543553]
MoviePuzzleは、ビジュアルな物語の推論と全体論的映画理解をターゲットとする、新しい挑戦である。
本研究では,映像モデルの時間的特徴学習と構造学習を増幅するMoviePuzzleタスクを提案する。
提案手法はMoviePuzzleベンチマークの既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-06-04T03:51:54Z) - On Negative Sampling for Audio-Visual Contrastive Learning from Movies [12.967364755951722]
本研究では,未修正長大コンテンツ,すなわち映画からの音声・視覚的自己指導学習の有効性について検討する。
実験結果から、一定の修正を加えて、未処理のロングフォームビデオのトレーニングによって、最先端技術と競合する表現が得られることが示唆された。
論文 参考訳(メタデータ) (2022-04-29T20:36:13Z) - Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations
in Instructional Videos [78.34818195786846]
ビデオにおけるナレーション相互作用を空間的局所化するタスクについて紹介する。
提案手法の鍵となるのは,映像の大規模コーパスにおける自己スーパービジョンとの相互作用の空間的ローカライズを学習する能力である。
学習中のコントラスト損失を効果的に最適化できる多層マルチモーダルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T14:45:13Z) - Watching Too Much Television is Good: Self-Supervised Audio-Visual
Representation Learning from Movies and TV Shows [6.247268652296234]
本研究では,映画やテレビ番組からの学習の有効性を,音声・視覚的自己指導学習のための未計算データの形式として検討する。
映画やテレビ番組のコレクションで訓練された、コントラスト学習に基づくシンプルなモデルが、より複雑な手法を劇的に上回っていることを実証する。
論文 参考訳(メタデータ) (2021-06-16T02:00:11Z) - CUPID: Adaptive Curation of Pre-training Data for Video-and-Language
Representation Learning [49.18591896085498]
ソースデータとターゲットデータのドメインギャップを埋めるCUPIDを提案します。
CUPIDは、複数のビデオ言語およびビデオタスクにまたがる最新のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-04-01T06:42:16Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Learning Trailer Moments in Full-Length Movies [49.74693903050302]
我々は、正式に公開された予告編を弱い監督力として活用し、フル長の映画から重要な瞬間を検知できるモデルを学ぶ。
本稿では,映画とトレーラーのコ・アテンションを利用してトレーニングペアを生成する新しいランキングネットワークを提案する。
我々は,最初の映画トレーラデータセットを構築し,提案するコ・アテンション支援ランキングネットワークは,教師付きアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-19T15:23:25Z) - Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences
for Urban Scene Segmentation [57.68890534164427]
本研究では,未ラベル映像シーケンスと追加画像の半教師付き学習を利用して,都市景観セグメンテーションの性能を向上させることができるかどうかを問う。
我々は単にラベルのないデータに対して擬似ラベルを予測し、人間の注釈付きデータと擬似ラベル付きデータの両方でその後のモデルを訓練する。
我々のNaive-Studentモデルは、このような単純で効果的な反復的半教師付き学習で訓練され、3つのCityscapesベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-05-20T18:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。