論文の概要: Comprehensive Information Integration Modeling Framework for Video
Titling
- arxiv url: http://arxiv.org/abs/2006.13608v1
- Date: Wed, 24 Jun 2020 10:38:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 10:17:56.784580
- Title: Comprehensive Information Integration Modeling Framework for Video
Titling
- Title(参考訳): ビデオタイピングのための総合情報統合モデリングフレームワーク
- Authors: Shengyu Zhang, Ziqi Tan, Jin Yu, Zhou Zhao, Kun Kuang, Tan Jiang,
Jingren Zhou, Hongxia Yang, Fei Wu
- Abstract要約: エンド・ツー・エンド・エンド・モデリング・フレームワークにおいて、消費者生成ビデオの内容、消費者から提供される物語コメント文、製品属性などの包括的情報ソースを統合する。
この問題に対処するため,提案手法は,粒度レベルの相互作用モデリングと抽象レベルのストーリーライン要約という2つのプロセスから構成される。
グローバルなeコマースプラットフォームであるTaobaoの実際のデータから、大規模なデータセットを収集します。
- 参考スコア(独自算出の注目度): 124.11296128308396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In e-commerce, consumer-generated videos, which in general deliver consumers'
individual preferences for the different aspects of certain products, are
massive in volume. To recommend these videos to potential consumers more
effectively, diverse and catchy video titles are critical. However,
consumer-generated videos seldom accompany appropriate titles. To bridge this
gap, we integrate comprehensive sources of information, including the content
of consumer-generated videos, the narrative comment sentences supplied by
consumers, and the product attributes, in an end-to-end modeling framework.
Although automatic video titling is very useful and demanding, it is much less
addressed than video captioning. The latter focuses on generating sentences
that describe videos as a whole while our task requires the product-aware
multi-grained video analysis. To tackle this issue, the proposed method
consists of two processes, i.e., granular-level interaction modeling and
abstraction-level story-line summarization. Specifically, the granular-level
interaction modeling first utilizes temporal-spatial landmark cues, descriptive
words, and abstractive attributes to builds three individual graphs and
recognizes the intra-actions in each graph through Graph Neural Networks (GNN).
Then the global-local aggregation module is proposed to model inter-actions
across graphs and aggregate heterogeneous graphs into a holistic graph
representation. The abstraction-level story-line summarization further
considers both frame-level video features and the holistic graph to utilize the
interactions between products and backgrounds, and generate the story-line
topic of the video. We collect a large-scale dataset accordingly from
real-world data in Taobao, a world-leading e-commerce platform, and will make
the desensitized version publicly available to nourish further development of
the research community...
- Abstract(参考訳): 電子商取引においては、消費者が特定の製品の異なる側面に対して消費者の個別の嗜好を届けるコンシューマ生成ビデオは膨大な量である。
これらのビデオをより効果的に、多様で、キャッチーなビデオタイトルに推奨することは重要だ。
しかし、コンシューマ生成ビデオは適切なタイトルを伴わない。
このギャップを埋めるために,消費者生成ビデオの内容,消費者が提供したナラティブコメント文,製品属性など,包括的な情報ソースをエンドツーエンドモデリングフレームワークに統合する。
自動的なビデオタイトリングは非常に有用で要求が多いが、ビデオキャプションよりもはるかに少ない。
後者は、ビデオ全体を記述した文章を生成することに重点を置いていますが、私たちのタスクには、製品対応の多粒ビデオ分析が必要です。
この問題に取り組むため,提案手法は粒度レベルの相互作用モデリングと抽象レベルのストーリーライン要約という2つのプロセスからなる。
特に、粒度レベルの相互作用モデリングでは、まず時間空間的ランドマークの手がかり、記述的な単語、抽象的な属性を使用して、3つの個別グラフを構築し、グラフニューラルネットワーク(GNN)を介してグラフ内の動作を認識する。
すると、グローバル局所集約モジュールはグラフ間の相互作用をモデル化し、不均一グラフを全体グラフ表現に集約するために提案される。
抽象レベルのストーリーライン要約はさらに、フレームレベルのビデオ特徴と全体グラフの両方を考慮し、製品と背景の相互作用を利用し、ビデオのストーリーライントピックを生成する。
われわれは、世界有数のeコマースプラットフォームであるTaobaoの実際のデータから、大規模なデータセットを収集し、この脱感作バージョンを、研究コミュニティのさらなる発展を養うために公開する。
関連論文リスト
- Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning [71.94122309290537]
ビデオの高密度キャプションを生成するための,効率的なオンライン手法を提案する。
我々のモデルは、新しい自己回帰因子化復号化アーキテクチャを使用している。
提案手法は,オフライン手法とオンライン手法の両方と比較して優れた性能を示し,計算コストを20%削減する。
論文 参考訳(メタデータ) (2024-11-22T02:46:44Z) - Personalized Video Summarization using Text-Based Queries and Conditional Modeling [3.4447129363520337]
この論文は、テキストベースのクエリと条件付きモデリングを統合することで、ビデオ要約の強化を探求する。
精度やF1スコアなどの評価指標は、生成された要約の品質を評価する。
論文 参考訳(メタデータ) (2024-08-27T02:43:40Z) - Neural Graph Matching for Video Retrieval in Large-Scale Video-driven E-commerce [5.534002182451785]
ビデオによるeコマースは、消費者の信頼を刺激し、販売を促進する大きな可能性を秘めている。
本稿では,ノードレベルのグラフマッチングと優先レベルのグラフマッチングを主とする,新しい二レベルグラフマッチングネットワーク(GMN)を提案する。
総合的な実験によって提案されたGMNの優位性を示し、最先端のアプローチよりも大幅に改善された。
論文 参考訳(メタデータ) (2024-08-01T07:31:23Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Video Captioning with Aggregated Features Based on Dual Graphs and Gated
Fusion [6.096411752534632]
ビデオキャプションモデルの応用は、正確な自然言語を用いて動画の内容を翻訳することを目的としている。
既存の方法は、しばしばビデオコンテンツの十分な特徴表現を生成するのに失敗する。
二重グラフとゲート融合に基づくビデオキャプションモデルを提案する。
論文 参考訳(メタデータ) (2023-08-13T05:18:08Z) - Leveraging Local Temporal Information for Multimodal Scene
Classification [9.548744259567837]
映像シーン分類モデルは、映像の空間的(ピクセル的に)および時間的(フレーム的に)特性を効果的に捉えなければならない。
トークン列が与えられた個々のトークンに対して文脈化された表現を得るように設計された自己注意型トランスフォーマーモデルは、多くのコンピュータビジョンタスクで人気が高まっている。
本稿では,ビデオフレーム間の局所的・大域的時間的関係を利用して,各フレームの文脈的表現をより良くする自己注意ブロックを提案する。
論文 参考訳(メタデータ) (2021-10-26T19:58:32Z) - CLIP-It! Language-Guided Video Summarization [96.69415453447166]
この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。
本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。
本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
論文 参考訳(メタデータ) (2021-07-01T17:59:27Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。