論文の概要: Creating Multimedia Summaries Using Tweets and Videos
- arxiv url: http://arxiv.org/abs/2203.08931v1
- Date: Wed, 16 Mar 2022 20:37:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-19 07:31:40.756445
- Title: Creating Multimedia Summaries Using Tweets and Videos
- Title(参考訳): つぶやきとビデオによるマルチメディア要約の作成
- Authors: Anietie Andy and Siyi Liu and Daphne Ippolito and Reno Kriz and Chris
Callison-Burch and Derry Wijaya
- Abstract要約: 本稿では,ソーシャルメディアのコメントとビデオを組み合わせて,テレビ放送イベントのマルチメディア要約を作成するための,シンプルかつ効果的なアプローチを提案する。
本手法では,イベントに関わる人々の言及のスパイクに基づいて,これらのイベントからシーンを特定し,話題のスパイク期間中に発生するビデオから,自動的にツイートやフレームを自動的に選択する。
- 参考スコア(独自算出の注目度): 30.117348677240855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While popular televised events such as presidential debates or TV shows are
airing, people provide commentary on them in real-time. In this paper, we
propose a simple yet effective approach to combine social media commentary and
videos to create a multimedia summary of televised events. Our approach
identifies scenes from these events based on spikes of mentions of people
involved in the event and automatically selects tweets and frames from the
videos that occur during the time period of the spike that talk about and show
the people being discussed.
- Abstract(参考訳): 大統領討論会やテレビ番組などの人気番組が放送されている一方で、人々はリアルタイムで解説を行っている。
本稿では,ソーシャルメディアのコメンタリーとビデオを組み合わせて,テレビ放送イベントのマルチメディア要約を作成するための,シンプルながら効果的なアプローチを提案する。
提案手法は,イベントに参加している人の発言のスパイクに基づいて,これらのイベントのシーンを識別し,話題のスパイクの期間中に発生したビデオから自動的につぶやきやフレームを選択する。
関連論文リスト
- Generating Event-oriented Attribution for Movies via Two-Stage Prefix-Enhanced Multimodal LLM [47.786978666537436]
本稿では,2段階の事前修正強化MLLM (TSPE) アプローチを提案する。
局所的な段階では、1つのクリップ内の関連するマルチモーダル情報にフォーカスするようモデルに誘導する対話対応プレフィックスを導入する。
グローバルな段階では、推論知識グラフを用いて関連するイベント間の接続を強化する。
論文 参考訳(メタデータ) (2024-09-14T08:30:59Z) - Multi-modal News Understanding with Professionally Labelled Videos
(ReutersViLNews) [25.78619140103048]
我々はReuters ViLNewsデータセットと呼ばれるReuters News Agencyが収集した社内データセットを大規模に分析した。
このデータセットは、長文ニュースに重点を置いて、ハイレベルなビデオ言語理解に焦点を当てている。
その結果,ニュース指向ビデオは現在のビデオ言語理解アルゴリズムにとって大きな課題であることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T00:42:04Z) - LiveChat: Video Comment Generation from Audio-Visual Multimodal Contexts [8.070778830276275]
我々は,ライブコメント技術の開発を容易にするために,大規模音声・視覚多モーダル対話データセットを作成する。
データはTwitchから収集され、11のカテゴリと575のストリーマーで合計438時間のビデオと3200万のコメントがある。
本稿では,映像中の時間的・空間的事象に対応するライブコメントを生成できる新しいマルチモーダル生成モデルを提案する。
論文 参考訳(メタデータ) (2023-10-01T02:35:58Z) - Event Detection from Social Media Stream: Methods, Datasets and
Opportunities [20.42206536532482]
ソーシャルメディアストリームには、日々の物語から最新のグローバルおよびローカルイベントやニュースまで、多種多様な情報が含まれている。
特にTwitterは、リアルタイムで発生するイベントの迅速な拡散を可能にし、個人や組織が現在起きている出来事を知らせることを可能にする。
ソーシャルメディアデータからのイベント検出は、従来のテキストとは異なる課題を呈し、近年注目されている研究分野である。
論文 参考訳(メタデータ) (2023-06-28T18:40:03Z) - Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale
Benchmark and Baseline [53.07236039168652]
本研究では,未編集映像に発生するすべての音声視覚イベントを共同でローカライズし,認識することを目的とした,濃密な局所化音声視覚イベントの課題に焦点をあてる。
このデータセットには、30万以上のオーディオ・ヴィジュアル・イベントを含む10万本のビデオが含まれている。
次に,様々な長さの音声視覚イベントをローカライズし,それら間の依存関係をひとつのパスでキャプチャする,学習ベースの新しいフレームワークを用いてタスクを定式化する。
論文 参考訳(メタデータ) (2023-03-22T22:00:17Z) - Connecting Vision and Language with Video Localized Narratives [54.094554472715245]
視覚と言語を繋ぐマルチモーダルなビデオアノテーションの新たな形式であるビデオローカライズド・ナラティブスを提案する。
オリジナルのLocalized Narrativesでは、アノテータは画像上にマウスを同時に移動させ、各単語をマウストレースセグメントで接地する。
我々の新しいプロトコルは、アノテータがローカライズド・ナラティブ(Localized Narratives)を使ってビデオのストーリーを語ることを可能にし、複数のアクターが相互に相互作用し、複数の受動的オブジェクトを持つ複雑なイベントをキャプチャする。
論文 参考訳(メタデータ) (2023-02-22T09:04:00Z) - Joint Multimedia Event Extraction from Video and Article [51.159034070824056]
本稿では,ビデオ記事やテキスト記事からイベントを共同抽出する手法を提案する。
まず,自己教師型マルチモーダルイベントコアモデルを提案する。
第2に、ビデオとテキストの両方から構造化イベント情報を共同で抽出する、最初のマルチモーダルトランスフォーマーを導入する。
論文 参考訳(メタデータ) (2021-09-27T03:22:12Z) - Scaling New Peaks: A Viewership-centric Approach to Automated Content
Curation [4.38301148531795]
本稿では,様々なセグメント識別目標に対応するビューアシップ駆動自動手法を提案する。
衛星テレビ視聴データを用いて、視聴者関心の「シード」セグメントを特定するために、視聴者関心の源泉として、視聴者関心の時系列に統計的異常検出を適用した。
我々は、2019年12月19日にアメリカ合衆国民主党大統領討論会と、2019年ウィンブルドン女子最終討論会で2つのケーススタディを提示した。
論文 参考訳(メタデータ) (2021-08-09T17:17:29Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。