論文の概要: Unboxing Engagement in YouTube Influencer Videos: An Attention-Based Approach
- arxiv url: http://arxiv.org/abs/2012.12311v6
- Date: Sun, 11 May 2025 16:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.473785
- Title: Unboxing Engagement in YouTube Influencer Videos: An Attention-Based Approach
- Title(参考訳): YouTubeインフルエンサービデオにおけるエンゲージメントのアンボックス化:注意に基づくアプローチ
- Authors: Prashant Rajaram, Puneet Manchanda,
- Abstract要約: 言葉(文章)による「言えること」は、映像(映像)や音響(オーディオ)による映像エンゲージメントの予測よりも重要である。
長文YouTubeインフルエンサービデオの非構造化データを解析する。
- 参考スコア(独自算出の注目度): 0.3686808512438362
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Influencer marketing has become a widely used strategy for reaching customers. Despite growing interest among influencers and brand partners in predicting engagement with influencer videos, there has been little research on the relative importance of different video data modalities in predicting engagement. We analyze unstructured data from long-form YouTube influencer videos - spanning text, audio, and video images - using an interpretable deep learning framework that leverages model attention to video elements. This framework enables strong out-of-sample prediction, followed by ex-post interpretation using a novel approach that prunes spurious associations. Our prediction-based results reveal that "what is said" through words (text) is more important than "how it is said" through imagery (video images) or acoustics (audio) in predicting video engagement. Interpretation-based findings show that during the critical onset period of a video (first 30 seconds), auditory stimuli (e.g., brand mentions and music) are associated with sentiment expressed in verbal engagement (comments), while visual stimuli (e.g., video images of humans and packaged goods) are linked with sentiment expressed through non-verbal engagement (the thumbs-up/down ratio). We validate our approach through multiple methods, connect our findings to relevant theory, and discuss implications for influencers, brands and agencies.
- Abstract(参考訳): インフルエンサーマーケティングは顧客へのリーチ戦略として広く利用されている。
インフルエンサーやブランドパートナーの間では、インフルエンサービデオへのエンゲージメント予測への関心が高まっているが、エンゲージメント予測における異なるビデオデータモダリティの相対的重要性についてはほとんど研究されていない。
我々は、ビデオ要素へのモデルアテンションを利用する解釈可能なディープラーニングフレームワークを用いて、長文のYouTubeインフルエンサービデオ(テキスト、オーディオ、ビデオ画像)の非構造化データを解析する。
この枠組みは、強い外見の予測を可能にし、その後、刺激的な関連性を示す新しいアプローチを用いて、ポスト前の解釈を行う。
その結果,画像(画像)や音響(音響)による映像のエンゲージメントの予測よりも,言葉(テキスト)による「何を言ったか」の方が重要であることがわかった。
ビデオの臨界開始期間(最初の30秒間)において、聴覚刺激(例えば、ブランドの言及や音楽)は、口頭で表される感情に関連し、視覚刺激(例えば、人間や包装品のビデオ画像)は、非言語的エンゲージメント(サムズアップ/ダウン比)を通して表される感情とリンクしている。
我々は、複数の手法を用いてアプローチを検証するとともに、知見を関連する理論に結びつけるとともに、インフルエンサー、ブランド、エージェンシーへの影響について議論する。
関連論文リスト
- DreamRelation: Relation-Centric Video Customization [33.65405972817795]
ビデオのカスタマイズ(英: video customization)とは、2つの主題間のユーザー特定関係を描写したパーソナライズされたビデオを作成することを指す。
既存の手法では、被写体や動きをパーソナライズできるが、複雑なビデオのカスタマイズには苦戦している。
本稿では,DreamRelationを提案する。DreamRelationはビデオの小さな集合を捉え,デカップリング学習とダイナミックエンハンスメントという2つの重要なコンポーネントを活用する。
論文 参考訳(メタデータ) (2025-03-10T17:58:03Z) - Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。
当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文 参考訳(メタデータ) (2025-01-27T10:57:24Z) - Admitting Ignorance Helps the Video Question Answering Models to Answer [82.22149677979189]
モデルはしばしばショートカットを定め、結果として質問と回答の間に急激な相関関係が生じる、と我々は主張する。
そこで本研究では,モデルに不明瞭さを認めざるを得ない新たな学習手法を提案する。
実際に、我々のフレームワークに最先端のモデルを統合することで、その有効性を検証する。
論文 参考訳(メタデータ) (2025-01-15T12:44:52Z) - Enhancing Multi-Modal Video Sentiment Classification Through Semi-Supervised Clustering [0.0]
本研究の目的は,映像そのもの,付随するテキスト,音響的特徴の2つの重要な側面に着目し,映像の感情分類を改善することである。
我々は,クラスタリングに基づく半教師付き事前学習を利用して,データから意味のある表現を抽出する手法を開発した。
論文 参考訳(メタデータ) (2025-01-11T08:04:39Z) - Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - Compositional Video Generation as Flow Equalization [72.88137795439407]
大規模テキスト・トゥ・ビデオ拡散モデル(T2V)は、最近、自然言語記述を驚くべき、フォトリアリスティックなビデオに変換する前例のない能力を示した。
有望な結果にもかかわらず、これらのモデルは複数の概念と行動の間の複雑な構成的相互作用を完全に把握するのに苦労する。
我々は、すべての概念が適切に表現されることを明確に保証する合成ビデオ生成のための一般的なフレームワークであるbftextVicoを紹介する。
論文 参考訳(メタデータ) (2024-06-10T16:27:47Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Identity-aware Graph Memory Network for Action Detection [37.65846189707054]
グラフメモリネットワークを通じて,アクターの身元情報を長期的・短期的両方の文脈で明確に強調する。
具体的には,長期関係モデリングを包括的に行う階層型グラフニューラルネットワーク(IGNN)を提案する。
我々は、異なるアイデンティティを持つアクターによる干渉の影響を低減するために、ID認識制約を生成するデュアルアテンションモジュール(DAM)を開発した。
論文 参考訳(メタデータ) (2021-08-26T02:34:55Z) - Relation-aware Hierarchical Attention Framework for Video Question
Answering [6.312182279855817]
ビデオ中のオブジェクトの静的な関係と動的関係を学習するために,RHA(Relation-aware Hierarchical Attention)フレームワークを提案する。
特に、ビデオや質問は、まず事前訓練されたモデルによって埋め込まれ、視覚とテキストの特徴を得る。
我々は,時間的,空間的,意味的関係を考察し,階層的注意機構によりマルチモーダルな特徴を融合して回答を予測する。
論文 参考訳(メタデータ) (2021-05-13T09:35:42Z) - Modeling High-order Interactions across Multi-interests for Micro-video
Reommendation [65.16624625748068]
利用者の興味表現を高めるためのセルフオーバーCoアテンションモジュールを提案します。
特に、まず相関パターンを異なるレベルでモデル化し、次に自己注意を使って特定のレベルで相関パターンをモデル化します。
論文 参考訳(メタデータ) (2021-04-01T07:20:15Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z) - Self-Supervised Joint Encoding of Motion and Appearance for First Person
Action Recognition [19.93779132095822]
これら2つの情報チャネルを相互に介在する学習機能は有用である,と我々は主張する。
本稿では,自己教師付き動作予測ブロックの追加により,単一ストリームアーキテクチャで実現可能であることを提案する。
いくつかの公開データベースの実験は、我々のアプローチの力を示しています。
論文 参考訳(メタデータ) (2020-02-10T17:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。