論文の概要: GET-Tok: A GenAI-Enriched Multimodal TikTok Dataset Documenting the 2022
Attempted Coup in Peru
- arxiv url: http://arxiv.org/abs/2402.05882v1
- Date: Thu, 8 Feb 2024 18:16:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 13:38:44.847705
- Title: GET-Tok: A GenAI-Enriched Multimodal TikTok Dataset Documenting the 2022
Attempted Coup in Peru
- Title(参考訳): GET-Tok:2022年のペルーでの対決を文書化したGenAI強化マルチモーダルTikTokデータセット
- Authors: Gabriela Pinto, Keith Burghardt, Kristina Lerman, Emilio Ferrara
- Abstract要約: GET-Tokは、TikTok Research APIを生成AIモデルで拡張することにより、TikTokビデオの収集とデータ強化のためのパイプラインである。
資料には2022年11月20日から2023年3月1日までの43,697本のビデオが記載されている(102日)。
Generative AIは、収集したデータを、TikTokビデオの書き起こし、ビデオに表示されているものに関するテキスト記述、ビデオ内で表示されているテキスト、ビデオに表示されるスタンスを通じて強化する。
- 参考スコア(独自算出の注目度): 10.48959359130712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: TikTok is one of the largest and fastest-growing social media sites in the
world. TikTok features, however, such as voice transcripts, are often missing
and other important features, such as OCR or video descriptions, do not exist.
We introduce the Generative AI Enriched TikTok (GET-Tok) data, a pipeline for
collecting TikTok videos and enriched data by augmenting the TikTok Research
API with generative AI models. As a case study, we collect videos about the
attempted coup in Peru initiated by its former President, Pedro Castillo, and
its accompanying protests. The data includes information on 43,697 videos
published from November 20, 2022 to March 1, 2023 (102 days). Generative AI
augments the collected data via transcripts of TikTok videos, text descriptions
of what is shown in the videos, what text is displayed within the video, and
the stances expressed in the video. Overall, this pipeline will contribute to a
better understanding of online discussion in a multimodal setting with
applications of Generative AI, especially outlining the utility of this
pipeline in non-English-language social media. Our code used to produce the
pipeline is in a public Github repository:
https://github.com/gabbypinto/GET-Tok-Peru.
- Abstract(参考訳): TikTokは世界最大の急成長中のソーシャルメディアサイトの一つだ。
しかし、音声書き起こしのようなtiktokの機能はしばしば欠落しており、ocrやビデオ記述といった他の重要な機能は存在していない。
我々は、TikTok Research APIを生成AIモデルで拡張することにより、TikTokビデオの収集とデータ強化のためのパイプラインであるGenerative AI Enriched TikTok(GET-Tok)データを紹介する。
ケーススタディとして、前大統領ペドロ・カスティーリョ(pedro castillo)がペルーで起こしたクーデターと、それに伴う抗議活動に関するビデオを集めた。
データには2022年11月20日から2023年3月1日までの43,697本のビデオが含まれている。
Generative AIは、収集したデータを、TikTokビデオの書き起こし、ビデオに表示されているものに関するテキスト記述、ビデオ内で表示されているテキスト、ビデオに表示されるスタンスを通じて強化する。
全体として、このパイプラインは、生成aiのアプリケーションとマルチモーダル環境でのオンライン議論の理解を深め、特に非英語のソーシャルメディアにおけるこのパイプラインの有用性を概説するのに役立つだろう。
パイプラインを生成するのに使われたコードは、公開のGithubリポジトリにある: https://github.com/gabbypinto/GET-Tok-Peru。
関連論文リスト
- xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - BASE TTS: Lessons from building a billion-parameter Text-to-Speech model
on 100K hours of data [15.447206120523356]
BASE TTSは、これまでで最大のTSモデルであり、パブリックドメインの音声データ100K時間で訓練されている。
10K以上の時間と500M以上のパラメータで構築されたBASE TTSの変種が、テキストに複雑な文に自然な韻律を呈示し始めることを示す。
論文 参考訳(メタデータ) (2024-02-12T22:21:30Z) - ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of
Video [3.2995359570845912]
Anim-400Kは、日本語と英語で425Kを超えるアニメーションビデオセグメントのデータセットである。
自動ダビング、同時翻訳、ガイド付きビデオ要約、ジャンル/スタイル分類など、様々なビデオ関連タスクをサポートする。
論文 参考訳(メタデータ) (2024-01-10T18:32:38Z) - A Recipe for Scaling up Text-to-Video Generation with Text-free Videos [72.59262815400928]
拡散ベースのテキスト・ツー・ビデオ世代は、過去1年で目覚ましい進歩をみせたが、それでもテキスト・ツー・画像世代には及ばない。
我々はTF-T2Vと呼ばれる新しいテキスト・ビデオ生成フレームワークを考案した。
論文 参考訳(メタデータ) (2023-12-25T16:37:39Z) - Written and spoken corpus of real and fake social media postings about
COVID-19 [0.0]
データは言語データ中のパターンを検出するためにLingguistic Inquiry and Word Count (LIWC)ソフトウェアを用いて分析された。
その結果, 偽ニュースと実ニュースを区別する言語的特徴の集合が, 文章データと音声データの両方で示されることがわかった。
論文 参考訳(メタデータ) (2023-10-06T13:21:04Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research [82.42802570171096]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval? [131.300931102986]
現実のシナリオでは、オンラインビデオにはタイトルやタグ、サブタイトルなど、関連するテキスト情報が添付されることが多い。
そこで本研究では,ゼロショットビデオキャプションを用いて動画から関連キャプションを直接生成する手法を提案する。
我々は,我々のアプローチの有効性を実証する包括的アブレーション研究を行っている。
論文 参考訳(メタデータ) (2022-12-31T11:50:32Z) - Phenaki: Variable Length Video Generation From Open Domain Textual
Description [21.610541668826006]
フェナキ(Phenaki)は、一連のテキストプロンプトを与えられたリアルなビデオ合成が可能なモデルである。
ビデオ表現を学習する新しいモデルは、ビデオを離散トークンの小さな表現に圧縮する。
私たちの知る限りでは、論文が時間変化プロンプトからビデオを生成するのは今回が初めてです。
論文 参考訳(メタデータ) (2022-10-05T17:18:28Z) - Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive
Transformer [66.56167074658697]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。
評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。
また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文 参考訳(メタデータ) (2022-04-07T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。