論文の概要: Unboxing Engagement in YouTube Influencer Videos: An Attention-Based Approach
- arxiv url: http://arxiv.org/abs/2012.12311v4
- Date: Mon, 26 Aug 2024 15:34:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 20:36:52.068174
- Title: Unboxing Engagement in YouTube Influencer Videos: An Attention-Based Approach
- Title(参考訳): YouTubeインフルエンサービデオにおけるエンゲージメントのアンボックス化:注意に基づくアプローチ
- Authors: Prashant Rajaram, Puneet Manchanda,
- Abstract要約: 著者らは,非構造化データを用いたサンプル外予測を良好に行う「解釈可能なディープラーニングフレームワーク」を開発した。
印刷広告における視覚的注意に触発された解釈手法は、映像特徴に対するモデル注意の尺度を使用する。
このフレームワークはYouTubeのインフルエンサービデオに適用され、ビデオの機能を浅いエンゲージメントと深いエンゲージメントの尺度にリンクする。
- 参考スコア(独自算出の注目度): 0.3686808512438362
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Influencer marketing videos have surged in popularity, yet significant gaps remain in understanding the relationship between video features and engagement. This challenge is intensified by the complexities of interpreting unstructured data. While deep learning models effectively leverage unstructured data to predict business outcomes, they often function as black boxes with limited interpretability, particularly when human validation is hindered by the absence of a known ground truth. To address this issue, the authors develop an "interpretable deep learning framework" that not only makes good out-of-sample predictions using unstructured data but also provides insights into the captured relationships. Inspired by visual attention in print advertising, the interpretation approach uses measures of model attention to video features, eliminating spurious associations through a two-step process and shortlisting relationships for formal causal testing. This method is applicable across well-known attention mechanisms - additive attention, scaled dot-product attention, and gradient-based attention - when analyzing text, audio, or video image data. Validated using simulations, this approach outperforms benchmark feature selection methods. This framework is applied to YouTube influencer videos, linking video features to measures of shallow and deep engagement developed based on the dual-system framework of thinking. The findings guide influencers and brands in prioritizing video features associated with deep engagement.
- Abstract(参考訳): インフルエンサーのマーケティングビデオの人気は急上昇しているが、ビデオ機能とエンゲージメントの関係を理解する上では大きなギャップが残っている。
この課題は、非構造化データの解釈の複雑さによって強化される。
ディープラーニングモデルは、非構造化データを効果的に活用してビジネス成果を予測する一方で、しばしばブラックボックスとして機能する。
この問題に対処するため,著者らは,非構造化データを用いたサンプル外予測だけでなく,キャプチャされた関係に関する洞察を提供する「解釈可能なディープラーニングフレームワーク」を開発した。
印刷広告における視覚的注意から着想を得たこの解釈手法は、ビデオ特徴に対するモデル的注意の尺度を用いて、2段階のプロセスを通して刺激的な関連を排除し、形式的因果検定のための関係をショートリスト化する。
この方法は、テキスト、オーディオ、ビデオ画像データを分析する際に、付加的な注意、拡張されたドット積の注意、勾配に基づく注意など、よく知られた注意機構に適用できる。
シミュレーションを用いて検証されたこのアプローチは、ベンチマークの特徴選択方法よりも優れている。
このフレームワークは、YouTubeのインフルエンサービデオに適用され、ビデオ機能と、思考のデュアルシステムフレームワークに基づいて開発された浅いエンゲージメントと深いエンゲージメントの尺度をリンクする。
この発見は、インフルエンサーやブランドが深いエンゲージメントに関連するビデオ特徴の優先順位付けに寄与する。
関連論文リスト
- Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - Compositional Video Generation as Flow Equalization [72.88137795439407]
大規模テキスト・トゥ・ビデオ拡散モデル(T2V)は、最近、自然言語記述を驚くべき、フォトリアリスティックなビデオに変換する前例のない能力を示した。
有望な結果にもかかわらず、これらのモデルは複数の概念と行動の間の複雑な構成的相互作用を完全に把握するのに苦労する。
我々は、すべての概念が適切に表現されることを明確に保証する合成ビデオ生成のための一般的なフレームワークであるbftextVicoを紹介する。
論文 参考訳(メタデータ) (2024-06-10T16:27:47Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Identity-aware Graph Memory Network for Action Detection [37.65846189707054]
グラフメモリネットワークを通じて,アクターの身元情報を長期的・短期的両方の文脈で明確に強調する。
具体的には,長期関係モデリングを包括的に行う階層型グラフニューラルネットワーク(IGNN)を提案する。
我々は、異なるアイデンティティを持つアクターによる干渉の影響を低減するために、ID認識制約を生成するデュアルアテンションモジュール(DAM)を開発した。
論文 参考訳(メタデータ) (2021-08-26T02:34:55Z) - Relation-aware Hierarchical Attention Framework for Video Question
Answering [6.312182279855817]
ビデオ中のオブジェクトの静的な関係と動的関係を学習するために,RHA(Relation-aware Hierarchical Attention)フレームワークを提案する。
特に、ビデオや質問は、まず事前訓練されたモデルによって埋め込まれ、視覚とテキストの特徴を得る。
我々は,時間的,空間的,意味的関係を考察し,階層的注意機構によりマルチモーダルな特徴を融合して回答を予測する。
論文 参考訳(メタデータ) (2021-05-13T09:35:42Z) - Modeling High-order Interactions across Multi-interests for Micro-video
Reommendation [65.16624625748068]
利用者の興味表現を高めるためのセルフオーバーCoアテンションモジュールを提案します。
特に、まず相関パターンを異なるレベルでモデル化し、次に自己注意を使って特定のレベルで相関パターンをモデル化します。
論文 参考訳(メタデータ) (2021-04-01T07:20:15Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z) - Self-Supervised Joint Encoding of Motion and Appearance for First Person
Action Recognition [19.93779132095822]
これら2つの情報チャネルを相互に介在する学習機能は有用である,と我々は主張する。
本稿では,自己教師付き動作予測ブロックの追加により,単一ストリームアーキテクチャで実現可能であることを提案する。
いくつかの公開データベースの実験は、我々のアプローチの力を示しています。
論文 参考訳(メタデータ) (2020-02-10T17:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。