論文の概要: Verifying Cross-modal Entity Consistency in News using Vision-language Models
- arxiv url: http://arxiv.org/abs/2501.11403v1
- Date: Mon, 20 Jan 2025 11:06:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:23:38.623125
- Title: Verifying Cross-modal Entity Consistency in News using Vision-language Models
- Title(参考訳): 視覚言語モデルを用いたニュースにおけるクロスモーダルエンティティ一貫性の検証
- Authors: Sahar Tahmasebi, Eric Müller-Budack, Ralph Ewerth,
- Abstract要約: 非一貫性のクロスモーダル情報の識別は、偽情報を検出するために重要である。
本稿では,ニュース記事中の画像とテキスト間のエンティティ一貫性を検証するためのフレームワークを提案する。
この結果から, クロスモーダルなエンティティ検証を自動化するためのLVLMの可能性が示唆された。
- 参考スコア(独自算出の注目度): 7.505532091249881
- License:
- Abstract: The web has become a crucial source of information, but it is also used to spread disinformation, often conveyed through multiple modalities like images and text. The identification of inconsistent cross-modal information, in particular entities such as persons, locations, and events, is critical to detect disinformation. Previous works either identify out-of-context disinformation by assessing the consistency of images to the whole document, neglecting relations of individual entities, or focus on generic entities that are not relevant to news. So far, only few approaches have addressed the task of validating entity consistency between images and text in news. However, the potential of large vision-language models (LVLMs) has not been explored yet. In this paper, we propose an LVLM-based framework for verifying Cross-modal Entity Consistency~(LVLM4CEC), to assess whether persons, locations and events in news articles are consistent across both modalities. We suggest effective prompting strategies for LVLMs for entity verification that leverage reference images crawled from web. Moreover, we extend three existing datasets for the task of entity verification in news providing manual ground-truth data. Our results show the potential of LVLMs for automating cross-modal entity verification, showing improved accuracy in identifying persons and events when using evidence images. Moreover, our method outperforms a baseline for location and event verification in documents. The datasets and source code are available on GitHub at \url{https://github.com/TIBHannover/LVLM4CEC}.
- Abstract(参考訳): ウェブは情報の重要な源となっているが、画像やテキストなどの複数のモダリティを通じて伝達される偽情報を拡散するためにも使われている。
非一貫性のクロスモーダル情報の識別、特に人、場所、出来事などの実体は、偽情報を検出するのに不可欠である。
以前の研究は、文書全体に対する画像の一貫性を評価し、個々のエンティティの関係を無視したり、ニュースとは無関係なジェネリックエンティティに焦点を当てたりすることで、文脈外の偽情報を特定する。
これまでのところ、ニュース中の画像とテキスト間のエンティティ一貫性を検証するという課題に対処するアプローチはごくわずかである。
しかし、大きな視覚言語モデル(LVLM)の可能性はまだ検討されていない。
本稿では,ニュース記事中の人物,場所,イベントが両モードで一致しているかどうかを評価するために,LVLMを用いたクロスモーダル・エンティティ・一貫性~(LVLM4CEC)の検証フレームワークを提案する。
ウェブからクロールされた参照画像を利用するエンティティ検証のためのLVLMの効果的なプロンプト戦略を提案する。
さらに,3つの既存データセットを拡張して,ニュースにおける実体検証を行い,手動の地平データを提供する。
以上の結果から, 証拠画像を用いた人物・事象の識別精度の向上が図られた。
さらに,本手法は文書中の位置検証やイベント検証のベースラインよりも優れている。
データセットとソースコードは GitHub の \url{https://github.com/TIBHannover/LVLM4CEC} で公開されている。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。
FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2024-07-09T14:35:49Z) - SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - Interpretable Detection of Out-of-Context Misinformation with Neural-Symbolic-Enhanced Large Multimodal Model [16.348950072491697]
誤報の作者は、ニュース検出システムや偽ニュースを騙すために、マルチメディア以外のコンテンツを使う傾向が強まっている。
この新たなタイプの誤報は、検出だけでなく、個々のモダリティが真の情報に十分近いため、明確化の難しさも増す。
本稿では,不一致のペアと相互の矛盾を同時に識別する,解釈可能なクロスモーダル・デコンテクスト化検出を実現する方法について検討する。
論文 参考訳(メタデータ) (2023-04-15T21:11:55Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Focus! Relevant and Sufficient Context Selection for News Image
Captioning [69.36678144800936]
News Image Captioningは、ニュース記事から追加のコンテキストを活用することで、画像を記述する必要がある。
本稿では,事前学習された視覚・言語検索モデルであるCLIPを用いて,ニュース記事中の視覚的根拠を持つエンティティをローカライズすることを提案する。
我々の実験は、記事からより良いコンテキストを選択するだけで、既存のモデルの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2022-12-01T20:00:27Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - AXM-Net: Cross-Modal Context Sharing Attention Network for Person Re-ID [20.700750237972155]
クロスモーダルな人物識別(Re-ID)は、現代のビデオ監視システムにおいて重要である。
主な課題は、人に存在する意味情報に従ってモダリティ間表現を整合させ、背景情報を無視することです。
AXM-Netは、意味的に整列された視覚およびテキスト表現を学習するために設計された新しいCNNベースのアーキテクチャである。
論文 参考訳(メタデータ) (2021-01-19T16:06:39Z) - Multimodal Analytics for Real-world News using Measures of Cross-modal
Entity Consistency [8.401772200450417]
例えば、写真でテキストを豊かにするといったマルチモーダル情報は、ニュースをより効果的に伝達したり、注意を引くために使われる。
本稿では,実世界のニュースにおける相互整合性検証の新たな課題を紹介し,画像とテキスト間の実体的一貫性を定量化するためのマルチモーダルアプローチを提案する。
論文 参考訳(メタデータ) (2020-03-23T17:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。