論文の概要: Poet: Product-oriented Video Captioner for E-commerce
- arxiv url: http://arxiv.org/abs/2008.06880v1
- Date: Sun, 16 Aug 2020 10:53:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 11:40:50.489153
- Title: Poet: Product-oriented Video Captioner for E-commerce
- Title(参考訳): Poet:Eコマースのためのプロダクト指向ビデオキャピタ
- Authors: Shengyu Zhang, Ziqi Tan, Jin Yu, Zhou Zhao, Kun Kuang, Jie Liu,
Jingren Zhou, Hongxia Yang, Fei Wu
- Abstract要約: 電子商取引では、製品プロモーションにユーザ生成ビデオが増えている。このビデオで表されるユーザ優先の製品特性を物語るビデオ記述をどうやって生成するかは、プロモーションを成功させる上で不可欠である。
本稿では,製品指向の動画キャプタフレームワークであるPoetを提案する。
Poetは、生成品質、製品面のキャプチャ、語彙の多様性に関する従来の手法よりも一貫した性能向上を実現していることを示す。
- 参考スコア(独自算出の注目度): 124.9936946822493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In e-commerce, a growing number of user-generated videos are used for product
promotion. How to generate video descriptions that narrate the user-preferred
product characteristics depicted in the video is vital for successful
promoting. Traditional video captioning methods, which focus on routinely
describing what exists and happens in a video, are not amenable for
product-oriented video captioning. To address this problem, we propose a
product-oriented video captioner framework, abbreviated as Poet. Poet firstly
represents the videos as product-oriented spatial-temporal graphs. Then, based
on the aspects of the video-associated product, we perform knowledge-enhanced
spatial-temporal inference on those graphs for capturing the dynamic change of
fine-grained product-part characteristics. The knowledge leveraging module in
Poet differs from the traditional design by performing knowledge filtering and
dynamic memory modeling. We show that Poet achieves consistent performance
improvement over previous methods concerning generation quality, product
aspects capturing, and lexical diversity. Experiments are performed on two
product-oriented video captioning datasets, buyer-generated fashion video
dataset (BFVD) and fan-generated fashion video dataset (FFVD), collected from
Mobile Taobao. We will release the desensitized datasets to promote further
investigations on both video captioning and general video analysis problems.
- Abstract(参考訳): 電子商取引では、製品プロモーションにユーザー生成ビデオが増えている。
ユーザーが予測した製品特性をナレーションするビデオ記述の生成は、プロモーションの成功に不可欠である。
従来のビデオキャプション手法は、ビデオに何が存在するのかを日常的に記述することに焦点を当てており、製品指向の動画キャプションには適さない。
そこで本研究では,製品指向のビデオキャプションフレームワークである poet を提案する。
Poetはまず、ビデオを製品指向の時空間グラフとして表現する。
そして,ビデオ関連製品の側面から,これらのグラフ上で知識を付加した時空間推定を行い,細粒度製品部品の特性の動的変化を捉える。
poetの知識活用モジュールは、知識フィルタリングと動的メモリモデリングを実行することで従来の設計とは異なる。
筆者らは,世代品質,製品側面のキャプチャ,語彙多様性に関する従来の手法よりも一貫した性能改善を達成していることを示す。
製品指向ビデオキャプションデータセット,バイヤー生成ファッションビデオデータセット(BFVD)とファン生成ファッションビデオデータセット(FFVD)の2つを対象に,Mobile Taobaoから収集した実験を行った。
我々は,映像キャプション問題と一般ビデオ解析問題の両方について,さらなる調査を促進するために,無感データセットをリリースする。
関連論文リスト
- SPECTRUM: Semantic Processing and Emotion-informed video-Captioning Through Retrieval and Understanding Modalities [0.7510165488300369]
本稿では,検索・理解モダリティ(SPECTRUM)フレームワークを用いたセマンティック・プロセッシングと感情インフォームド・ビデオキャプションを提案する。
SPECTRUMは、VTAI(Visual Text Attribute Investigation)を用いてマルチモーダルなセマンティクスと感情的なテーマを特定し、記述的キャプションの向きを決定する。
ビデオ・トゥ・テキスト検索機能とビデオコンテンツの多面的特性を利用して、候補キャプションの感情的確率を推定する。
論文 参考訳(メタデータ) (2024-11-04T10:51:47Z) - SVP: Style-Enhanced Vivid Portrait Talking Head Diffusion Model [66.34929233269409]
トーキングヘッドジェネレーション(THG)は、デジタル人間、映画制作、バーチャルリアリティーなど様々な分野の幅広い応用分野において重要な課題である。
本稿では,THGのスタイル関連情報をフル活用したSVP(Style-Enhanced Vivid Portrait)を提案する。
我々のモデルは、本質的なスタイルを柔軟に制御できる多様な、鮮明で高品質なビデオを生成し、既存の最先端の手法より優れています。
論文 参考訳(メタデータ) (2024-09-05T06:27:32Z) - One-Shot Pose-Driving Face Animation Platform [7.422568903818486]
我々は、Face LocatorとMotion Frame機構を統合することで、既存のImage2Videoモデルを洗練する。
我々は、人間の顔ビデオデータセットを用いてモデルを最適化し、高品質な音声ヘッドビデオを作成する能力を大幅に向上させる。
そこで我々は,Gradioフレームワークを用いたデモプラットフォームを開発し,プロセスの合理化を図り,ユーザがカスタマイズした音声ヘッドビデオを簡単に作成できるようにする。
論文 参考訳(メタデータ) (2024-07-12T03:09:07Z) - CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [61.323597069037056]
テキスト・ビデオ・ジェネレーションのパーソナライズへの現在のアプローチは、複数の課題に対処することに悩まされている。
複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文 参考訳(メタデータ) (2024-01-18T13:23:51Z) - Video Captioning with Aggregated Features Based on Dual Graphs and Gated
Fusion [6.096411752534632]
ビデオキャプションモデルの応用は、正確な自然言語を用いて動画の内容を翻訳することを目的としている。
既存の方法は、しばしばビデオコンテンツの十分な特徴表現を生成するのに失敗する。
二重グラフとゲート融合に基づくビデオキャプションモデルを提案する。
論文 参考訳(メタデータ) (2023-08-13T05:18:08Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。
具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。
その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文 参考訳(メタデータ) (2023-05-15T17:59:03Z) - Multimodal Pretraining for Dense Video Captioning [26.39052753539932]
我々は、新しい高密度ビデオキャプションデータセット、ビデオタイムラインタグ(ViTT)を構築し、リリースする。
ビデオとキャプションのようなテキストの巨大な教師なしデータセットを活用するマルチモーダルシーケンス・ツー・シーケンス事前学習戦略について検討する。
このようなモデルは多種多様な指導ビデオに対してよく一般化され、堅牢であることを示す。
論文 参考訳(メタデータ) (2020-11-10T21:49:14Z) - Comprehensive Information Integration Modeling Framework for Video
Titling [124.11296128308396]
エンド・ツー・エンド・エンド・モデリング・フレームワークにおいて、消費者生成ビデオの内容、消費者から提供される物語コメント文、製品属性などの包括的情報ソースを統合する。
この問題に対処するため,提案手法は,粒度レベルの相互作用モデリングと抽象レベルのストーリーライン要約という2つのプロセスから構成される。
グローバルなeコマースプラットフォームであるTaobaoの実際のデータから、大規模なデータセットを収集します。
論文 参考訳(メタデータ) (2020-06-24T10:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。