論文の概要: Large Language Models and Provenance Metadata for Determining the Relevance of Images and Videos in News Stories
- arxiv url: http://arxiv.org/abs/2502.09689v1
- Date: Thu, 13 Feb 2025 16:48:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:48:50.868517
- Title: Large Language Models and Provenance Metadata for Determining the Relevance of Images and Videos in News Stories
- Title(参考訳): ニュース記事における画像と映像の関連性決定のための大規模言語モデルと出現メタデータ
- Authors: Tomas Peterka, Matyas Bohacek,
- Abstract要約: マルチモーダルな誤報キャンペーンは テキストと 文脈から撮った画像とビデオを組み合わせている
本稿では,記事のテキストと画像とビデオの出現メタデータの両方を分析し,関連性の有無を判定するシステムを提案する。
システムプロトタイプとインタラクティブなWebインターフェースをオープンソースとして公開しています。
- 参考スコア(独自算出の注目度): 0.7366405857677227
- License:
- Abstract: The most effective misinformation campaigns are multimodal, often combining text with images and videos taken out of context -- or fabricating them entirely -- to support a given narrative. Contemporary methods for detecting misinformation, whether in deepfakes or text articles, often miss the interplay between multiple modalities. Built around a large language model, the system proposed in this paper addresses these challenges. It analyzes both the article's text and the provenance metadata of included images and videos to determine whether they are relevant. We open-source the system prototype and interactive web interface.
- Abstract(参考訳): 最も効果的な誤報キャンペーンはマルチモーダルで、しばしばテキストと文脈から取り出された画像とビデオを組み合わせて、特定の物語をサポートする。
偽情報を検出する現代の方法は、ディープフェイクでもテキスト記事でも、複数のモダリティ間の相互作用を見逃すことが多い。
大規模言語モデルに基づいて構築されたシステムでは,これらの課題に対処する。
記事のテキストと、含まれた画像やビデオの出典メタデータを分析して、それらが関係しているかどうかを判断する。
システムプロトタイプとインタラクティブなWebインターフェースをオープンソースとして公開しています。
関連論文リスト
- Multi-Modal interpretable automatic video captioning [1.9874264019909988]
マルチモーダル・コントラッシブ・ロスを訓練した新しいビデオキャプション手法を提案する。
我々のアプローチは、これらのモダリティ間の依存関係を捉えるために設計されており、その結果、より正確で、従って関連するキャプションとなる。
論文 参考訳(メタデータ) (2024-11-11T11:12:23Z) - Target Prompting for Information Extraction with Vision Language Model [0.0]
近年のLarge Vision and Language Modelのトレンドは、情報抽出システムの構築方法に新たな変化をもたらした。
それらは文書画像からテキストを生成し、質問に対する正確な回答を提供するのに非常に優れている。
大きな言語モデルで使用される一般的なプロンプト技術は、これらの特別に設計された視覚言語モデルには適さないことが多い。
論文 参考訳(メタデータ) (2024-08-07T15:17:51Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - Interpretable Detection of Out-of-Context Misinformation with Neural-Symbolic-Enhanced Large Multimodal Model [16.348950072491697]
誤報の作者は、ニュース検出システムや偽ニュースを騙すために、マルチメディア以外のコンテンツを使う傾向が強まっている。
この新たなタイプの誤報は、検出だけでなく、個々のモダリティが真の情報に十分近いため、明確化の難しさも増す。
本稿では,不一致のペアと相互の矛盾を同時に識別する,解釈可能なクロスモーダル・デコンテクスト化検出を実現する方法について検討する。
論文 参考訳(メタデータ) (2023-04-15T21:11:55Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal Media [93.51739200834837]
画像とテキストの両方を操作できないが一致しないデータセットを提案する。
本稿では,字幕に適した画像の自動検索手法をいくつか紹介する。
当社の大規模自動生成NewsCLIPpingsデータセットは、両方のモダリティを共同分析するモデルを必要とします。
論文 参考訳(メタデータ) (2021-04-13T01:53:26Z) - On the Role of Images for Analyzing Claims in Social Media [3.8142537449670963]
本稿では,クレーム,クレームチェック性,共謀検出の課題に対する視覚的,テキスト的,マルチモーダルモデルに関する実証研究を行う。
最近の研究は、画像はテキストよりも影響力があり、しばしば偽のテキストと共に現れることを示唆している。
論文 参考訳(メタデータ) (2021-03-17T12:40:27Z) - Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。
複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。
我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-11-03T08:44:18Z) - Multimodal Analytics for Real-world News using Measures of Cross-modal
Entity Consistency [8.401772200450417]
例えば、写真でテキストを豊かにするといったマルチモーダル情報は、ニュースをより効果的に伝達したり、注意を引くために使われる。
本稿では,実世界のニュースにおける相互整合性検証の新たな課題を紹介し,画像とテキスト間の実体的一貫性を定量化するためのマルチモーダルアプローチを提案する。
論文 参考訳(メタデータ) (2020-03-23T17:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。