論文の概要: ViClaim: A Multilingual Multilabel Dataset for Automatic Claim Detection in Videos
- arxiv url: http://arxiv.org/abs/2504.12882v1
- Date: Thu, 17 Apr 2025 12:14:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:37:15.388974
- Title: ViClaim: A Multilingual Multilabel Dataset for Automatic Claim Detection in Videos
- Title(参考訳): ViClaim:ビデオの自動クレーム検出のための多言語マルチラベルデータセット
- Authors: Patrick Giedemann, Pius von Däniken, Jan Deriu, Alvaro Rodrigo, Anselmo Peñas, Mark Cieliebak,
- Abstract要約: ViClaimは、3つの言語(英語、ドイツ語、スペイン語)と6つのトピックにわたる1,798の注釈付きビデオテキストのデータセットである。
転写文の各文には、クレーム関連カテゴリ: fact-check-worthy, fact-non-check-worthy, opinionの3つがラベル付けされている。
- 参考スコア(独自算出の注目度): 9.110946564929838
- License:
- Abstract: The growing influence of video content as a medium for communication and misinformation underscores the urgent need for effective tools to analyze claims in multilingual and multi-topic settings. Existing efforts in misinformation detection largely focus on written text, leaving a significant gap in addressing the complexity of spoken text in video transcripts. We introduce ViClaim, a dataset of 1,798 annotated video transcripts across three languages (English, German, Spanish) and six topics. Each sentence in the transcripts is labeled with three claim-related categories: fact-check-worthy, fact-non-check-worthy, or opinion. We developed a custom annotation tool to facilitate the highly complex annotation process. Experiments with state-of-the-art multilingual language models demonstrate strong performance in cross-validation (macro F1 up to 0.896) but reveal challenges in generalization to unseen topics, particularly for distinct domains. Our findings highlight the complexity of claim detection in video transcripts. ViClaim offers a robust foundation for advancing misinformation detection in video-based communication, addressing a critical gap in multimodal analysis.
- Abstract(参考訳): コミュニケーションや誤報の媒体としての映像コンテンツの影響の高まりは、多言語・多言語環境におけるクレームを解析するための効果的なツールの急激な必要性を浮き彫りにする。
既存の誤報検出の取り組みは、主にテキストに焦点をあてており、ビデオテキスト中の音声テキストの複雑さに対処する上で、大きなギャップを残している。
ViClaimは、3つの言語(英語、ドイツ語、スペイン語)と6つのトピックにわたる1,798の注釈付きビデオテキストのデータセットである。
転写文の各文には、クレーム関連カテゴリ: fact-check-worthy, fact-non-check-worthy, opinionの3つがラベル付けされている。
我々は、高度に複雑なアノテーションプロセスを容易にするカスタムアノテーションツールを開発した。
最先端の多言語言語モデルを用いた実験は、クロスバリデーション(macro F1 to 0.896)において強い性能を示すが、特に異なる領域において、目に見えないトピックに一般化する際の課題を明らかにする。
本研究は,ビデオテキストにおけるクレーム検出の複雑さを浮き彫りにした。
ViClaimは、ビデオベースのコミュニケーションにおいて誤情報検出を促進するための堅牢な基盤を提供し、マルチモーダル分析における重要なギャップに対処する。
関連論文リスト
- Annotation Tool and Dataset for Fact-Checking Podcasts [1.6804613362826175]
ポッドキャストはウェブ上で人気のあるメディアであり、多言語コンテンツが多種多様で、しばしば不確定なクレームを含んでいる。
我々のツールは、再生中にコンテキストのリアルタイムアノテーションを有効にすることで、これらの課題に対処するための新しいアプローチを提供する。
このユニークな機能は、ユーザがポッドキャストを聴いて、チェック価値のあるクレーム、クレームスパン、コンテキストエラーなどの重要な要素を同時にアノテートすることを可能にする。
論文 参考訳(メタデータ) (2025-02-03T14:34:17Z) - MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval [57.891157692501345]
$textbfMultiVENT 2.0$は、大規模かつ多言語なイベント中心のビデオ検索ベンチマークである。
218,000以上のニュースビデオと、特定の世界イベントを対象とした3,906のクエリが提供されている。
予備的な結果は、最先端のビジョン言語モデルは、この課題にかなり苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-15T13:56:34Z) - Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset [4.452729255042396]
より堅牢で総合的な言語とビデオの表現が、ビデオの理解を前進させる鍵だ。
現在の平易で単純なテキスト記述と、言語ビデオタスクに対する視覚のみの焦点は、現実世界の自然言語ビデオ検索タスクにおいて限られた能力をもたらす。
本稿では,ビデオ言語データセットを自動的に拡張し,モダリティと文脈認識を向上する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T20:16:17Z) - Multilingual Synopses of Movie Narratives: A Dataset for Vision-Language Story Understanding [19.544839928488972]
我々はM-SYMON(Multilingual Synopses of Movie Narratives)という大規模多言語ビデオストーリーデータセットを構築した。
M-SYMONには、7つの言語からの13,166本の映画要約ビデオと、101.5時間のビデオの詳細なビデオテキスト対応のマニュアルアノテーションが含まれている。
SyMoNからの注釈付きデータのトレーニングは、Clip AccuracyとSentence IoUのスコアでそれぞれ15.7と16.2でSOTA法を上回ります。
論文 参考訳(メタデータ) (2024-06-18T22:44:50Z) - Breaking Language Barriers with MMTweets: Advancing Cross-Lingual Debunked Narrative Retrieval for Fact-Checking [5.880794128275313]
言語横断的な物語検索は未検討の問題である。
本研究は, 言語間分離された物語検索を導入し, (i)多言語誤報ツイート(MMTweets)を作成することにより, この研究ギャップに対処する。
MMTweetsは、言語間のペア、画像、人間のアノテーション、きめ細かいラベルを特徴としている。
MMTweetsは言語横断的な物語検索の課題を示し,検索モデルの改善領域を強調している。
論文 参考訳(メタデータ) (2023-08-10T16:33:17Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Learning a Grammar Inducer from Massive Uncurated Instructional Videos [118.7279072358029]
映像支援文法帰納法は,映像情報を利用してより正確な構文文法を検索することを目的としている。
我々は手動で設計した機能なしでビデオスパン相関をよりよく学習できる新しいモデルを構築した。
我々のモデルは、ドメイン内のデータに基づいてトレーニングされた従来の最先端システムよりも高いF1スコアが得られる。
論文 参考訳(メタデータ) (2022-10-22T00:22:55Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。