論文の概要: Unboxing Engagement in YouTube Influencer Videos: An Attention-Based Approach
- arxiv url: http://arxiv.org/abs/2012.12311v5
- Date: Fri, 22 Nov 2024 20:24:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:17:24.273702
- Title: Unboxing Engagement in YouTube Influencer Videos: An Attention-Based Approach
- Title(参考訳): YouTubeインフルエンサービデオにおけるエンゲージメントのアンボックス化:注意に基づくアプローチ
- Authors: Prashant Rajaram, Puneet Manchanda,
- Abstract要約: モデルが捉えた関係に関する洞察を提供する「解釈可能なディープラーニングフレームワーク」を開発します。
印刷広告における視覚的注意に触発された解釈手法は,映像特徴に対するモデル注意の尺度を用いる。
当社のフレームワークをYouTubeインフルエンサービデオに適用し、動画機能を浅いエンゲージメントと深いエンゲージメントの尺度にリンクする。
- 参考スコア(独自算出の注目度): 0.3686808512438362
- License:
- Abstract: Influencer marketing videos have surged in popularity, yet significant gaps remain in understanding the relationships between video features and engagement. This challenge is intensified by the complexities of interpreting unstructured data. While deep learning models effectively leverage raw unstructured data to predict engagement, they often function as black boxes with limited interpretability, particularly when human validation is hindered by the absence of a known ground truth. To address this issue, we develop an 'interpretable deep learning framework' that provides insights into the relationships captured by the models. Inspired by visual attention in print advertising, our interpretation approach uses measures of model attention to video features, eliminating spurious associations through a two-step process and identifying a subset of relationships for formal causal testing. This approach is versatile, as it applies across well-known attention mechanisms - additive attention, scaled dot-product attention, and gradient-based attention - when analyzing text, audio, or video image data. We apply our framework to YouTube influencer videos, linking video features to measures of shallow and deep engagement developed based on the dual-system framework of thinking. Our findings guide influencers in prioritizing the design of video features associated with deep engagement sentiment.
- Abstract(参考訳): インフルエンサーのマーケティングビデオの人気は急上昇しているが、ビデオ機能とエンゲージメントの関係を理解する上では大きなギャップが残っている。
この課題は、非構造化データの解釈の複雑さによって強化される。
ディープラーニングモデルは、生の構造化されていないデータを効果的に活用してエンゲージメントを予測する一方で、特に人間の検証が既知の根拠の真実の欠如によって妨げられる場合に、限定的な解釈可能性を持つブラックボックスとして機能することが多い。
この問題に対処するため、モデルが捉えた関係に関する洞察を提供する「解釈可能なディープラーニングフレームワーク」を開発した。
印刷広告における視覚的注意から着想を得た我々の解釈手法は、ビデオ特徴に対するモデル的注意の尺度を用いて、2段階のプロセスを通して刺激的な関連を排除し、形式的因果検定のための関係のサブセットを特定する。
このアプローチは、テキスト、オーディオ、またはビデオ画像データを分析する際に、よく知られた注意機構 – 追加の注意、拡大されたドット製品注意、勾配に基づく注意 – に適用されるため、多用途である。
この枠組みをYouTubeインフルエンサー・ビデオに適用し、ビデオ特徴を2システム・フレームワーク・オブ・シンキングに基づいて開発した浅く深いエンゲージメントの尺度にリンクする。
本研究は,深いエンゲージメント感にかかわる映像特徴の優先順位付けにおけるインフルエンサーの役割を示唆するものである。
関連論文リスト
- Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - Compositional Video Generation as Flow Equalization [72.88137795439407]
大規模テキスト・トゥ・ビデオ拡散モデル(T2V)は、最近、自然言語記述を驚くべき、フォトリアリスティックなビデオに変換する前例のない能力を示した。
有望な結果にもかかわらず、これらのモデルは複数の概念と行動の間の複雑な構成的相互作用を完全に把握するのに苦労する。
我々は、すべての概念が適切に表現されることを明確に保証する合成ビデオ生成のための一般的なフレームワークであるbftextVicoを紹介する。
論文 参考訳(メタデータ) (2024-06-10T16:27:47Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Identity-aware Graph Memory Network for Action Detection [37.65846189707054]
グラフメモリネットワークを通じて,アクターの身元情報を長期的・短期的両方の文脈で明確に強調する。
具体的には,長期関係モデリングを包括的に行う階層型グラフニューラルネットワーク(IGNN)を提案する。
我々は、異なるアイデンティティを持つアクターによる干渉の影響を低減するために、ID認識制約を生成するデュアルアテンションモジュール(DAM)を開発した。
論文 参考訳(メタデータ) (2021-08-26T02:34:55Z) - Relation-aware Hierarchical Attention Framework for Video Question
Answering [6.312182279855817]
ビデオ中のオブジェクトの静的な関係と動的関係を学習するために,RHA(Relation-aware Hierarchical Attention)フレームワークを提案する。
特に、ビデオや質問は、まず事前訓練されたモデルによって埋め込まれ、視覚とテキストの特徴を得る。
我々は,時間的,空間的,意味的関係を考察し,階層的注意機構によりマルチモーダルな特徴を融合して回答を予測する。
論文 参考訳(メタデータ) (2021-05-13T09:35:42Z) - Modeling High-order Interactions across Multi-interests for Micro-video
Reommendation [65.16624625748068]
利用者の興味表現を高めるためのセルフオーバーCoアテンションモジュールを提案します。
特に、まず相関パターンを異なるレベルでモデル化し、次に自己注意を使って特定のレベルで相関パターンをモデル化します。
論文 参考訳(メタデータ) (2021-04-01T07:20:15Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z) - Self-Supervised Joint Encoding of Motion and Appearance for First Person
Action Recognition [19.93779132095822]
これら2つの情報チャネルを相互に介在する学習機能は有用である,と我々は主張する。
本稿では,自己教師付き動作予測ブロックの追加により,単一ストリームアーキテクチャで実現可能であることを提案する。
いくつかの公開データベースの実験は、我々のアプローチの力を示しています。
論文 参考訳(メタデータ) (2020-02-10T17:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。