論文の概要: Television Discourse Decoded: Comprehensive Multimodal Analytics at Scale
- arxiv url: http://arxiv.org/abs/2402.12629v2
- Date: Tue, 6 Aug 2024 07:08:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 19:22:06.473315
- Title: Television Discourse Decoded: Comprehensive Multimodal Analytics at Scale
- Title(参考訳): テレビ談話のデコード:大規模マルチモーダル分析の総合化
- Authors: Anmol Agarwal, Pratyush Priyadarshi, Shiven Sinha, Shrey Gupta, Hitkul Jangra, Ponnurangam Kumaraguru, Kiran Garimella,
- Abstract要約: 我々は、インドからのプライムタイムニュース討論番組に焦点をあてて、テレビ放送された討論を分析するという複雑な課題に取り組む。
以前は、しばしばテキストのみに頼っていたが、これらの議論のマルチモーダルな本質を捉えるには不足していた。
大規模マルチメディア分析に先進的なコンピュータビジョンと音声テキスト技術を用いた総合的自動ツールキットを提案する。
- 参考スコア(独自算出の注目度): 5.965160962617209
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we tackle the complex task of analyzing televised debates, with a focus on a prime time news debate show from India. Previous methods, which often relied solely on text, fall short in capturing the multimodal essence of these debates. To address this gap, we introduce a comprehensive automated toolkit that employs advanced computer vision and speech-to-text techniques for large-scale multimedia analysis. Utilizing state-of-the-art computer vision algorithms and speech-to-text methods, we transcribe, diarize, and analyze thousands of YouTube videos of a prime-time television debate show in India. These debates are a central part of Indian media but have been criticized for compromised journalistic integrity and excessive dramatization. Our toolkit provides concrete metrics to assess bias and incivility, capturing a comprehensive multimedia perspective that includes text, audio utterances, and video frames. Our findings reveal significant biases in topic selection and panelist representation, along with alarming levels of incivility. This work offers a scalable, automated approach for future research in multimedia analysis, with profound implications for the quality of public discourse and democratic debate. To catalyze further research in this area, we also release the code, dataset collected and supplemental pdf.
- Abstract(参考訳): 本稿では,インド発のプライムタイムニュース討論番組に焦点をあて,テレビ放送された討論を解析する複雑な課題に取り組む。
以前は、しばしばテキストのみに頼っていたが、これらの議論のマルチモーダルな本質を捉えるには不足していた。
このギャップに対処するために,大規模マルチメディア分析に先進的なコンピュータビジョンと音声テキスト技術を用いた総合的自動ツールキットを導入する。
最先端のコンピュータビジョンアルゴリズムと音声からテキストへの手法を活用して、インドのプライムタイムテレビ討論番組のYouTubeビデオの書き起こし、ダイアリゼーション、分析を行う。
これらの議論はインドのメディアの中心であるが、ジャーナリストの誠実さと過度なドラマ化を損なうとして批判されている。
本ツールキットは,テキスト,音声発話,ビデオフレームを含むマルチメディアの総合的な視点を捉え,偏見と非現実性を評価するための具体的な指標を提供する。
調査の結果,トピックの選択やパネリストの表現に有意な偏りがみられた。
この研究は、マルチメディア分析における将来の研究にスケーラブルで自動化されたアプローチを提供する。
この領域のさらなる研究を促進するために、コード、データセット、補足的なpdfもリリースします。
関連論文リスト
- More than Memes: A Multimodal Topic Modeling Approach to Conspiracy Theories on Telegram [0.0]
ドイツ語のテレグラムチャンネルにおける陰謀論の分析のためのマルチモーダル・トピック・モデリングの可能性について検討する。
我々は、2023年10月にドイツ語のTelegramチャンネルで投稿された40,000のTelegramメッセージのコーパスを分析した。
論文 参考訳(メタデータ) (2024-10-11T09:10:26Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Fighting Malicious Media Data: A Survey on Tampering Detection and
Deepfake Detection [115.83992775004043]
近年のディープラーニング、特に深層生成モデルの発展により、知覚的に説得力のある画像や動画を低コストで制作するための扉が開かれた。
本稿では,現在のメディアタンパリング検出手法を概観し,今後の研究の課題と動向について論じる。
論文 参考訳(メタデータ) (2022-12-12T02:54:08Z) - Inference of Media Bias and Content Quality Using Natural-Language
Processing [6.092956184948962]
本稿では、メディアの政治バイアスとコンテンツ品質の両方をテキストから推測する枠組みを提案する。
我々は,100万ツイート以上のデータセットに対して,双方向長短期記憶(LSTM)ニューラルネットワークを適用した。
この結果から,テキスト分析における単語順序の学習手法への活用の重要性が示唆された。
論文 参考訳(メタデータ) (2022-12-01T03:04:55Z) - Video Manipulations Beyond Faces: A Dataset with Human-Machine Analysis [60.13902294276283]
我々は826の動画(413のリアルと413の操作)からなるデータセットであるVideoShamを提示する。
既存のディープフェイクデータセットの多くは、2種類の顔操作にのみ焦点をあてている。
我々の分析によると、最先端の操作検出アルゴリズムはいくつかの特定の攻撃に対してのみ有効であり、VideoShamではうまくスケールしない。
論文 参考訳(メタデータ) (2022-07-26T17:39:04Z) - Emotion Based Hate Speech Detection using Multimodal Learning [0.0]
本稿では,感情を表す聴覚特徴と,ヘイトフルなコンテンツを検出する意味的特徴を組み合わせた,最初のマルチモーダル深層学習フレームワークを提案する。
以上の結果から,感情的属性を取り入れることで,ヘイトフルなマルチメディアコンテンツの検出におけるテキストベースモデルよりも顕著な改善がもたらされることが示唆された。
論文 参考訳(メタデータ) (2022-02-13T05:39:47Z) - Bridging Vision and Language from the Video-to-Text Perspective: A
Comprehensive Review [1.0520692160489133]
本稿では,ビデオ・トゥ・テキスト問題に対する最先端技術の分類と解説を行う。
主なvideo-to-textメソッドとそのパフォーマンス評価方法をカバーする。
最先端の技術は、ビデオ記述の生成または取得における人間のようなパフォーマンスを達成するには、まだ長い道のりです。
論文 参考訳(メタデータ) (2021-03-27T02:12:28Z) - A Novel Context-Aware Multimodal Framework for Persian Sentiment
Analysis [19.783517380422854]
まず,800以上の発話からなるペルシャのマルチモーダルデータセットについて述べる。
文脈対応型マルチモーダル感情分析フレームワークを提案する。
我々は,感情的クロスモーダル情報を統合するために,意思決定レベル(後期)と機能レベル(早期)の融合手法の両方を用いる。
論文 参考訳(メタデータ) (2021-03-03T19:09:01Z) - LIFI: Towards Linguistically Informed Frame Interpolation [66.05105400951567]
我々は、複数のディープラーニングビデオ生成アルゴリズムを用いて、欠落したフレームを生成することで、この問題を解決しようとしている。
音声理解のコンピュータビジョン映像生成モデルをテストするために,いくつかのデータセットをリリースする。
論文 参考訳(メタデータ) (2020-10-30T05:02:23Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z) - Video Captioning with Guidance of Multimodal Latent Topics [123.5255241103578]
我々は、データから教師なしの方法でマルチモーダルトピックをマイニングする統合キャプションフレームワークM&M TGMを提案する。
事前に定義されたトピックと比較して、マイニングされたマルチモーダルトピックはより意味的に、視覚的に一貫性がある。
MSR-VTTとYoutube2Textのデータセットを用いた大規模な実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2017-08-31T11:18:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。