論文の概要: LookupForensics: A Large-Scale Multi-Task Dataset for Multi-Phase Image-Based Fact Verification
- arxiv url: http://arxiv.org/abs/2407.18614v1
- Date: Fri, 26 Jul 2024 09:15:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 13:50:27.569571
- Title: LookupForensics: A Large-Scale Multi-Task Dataset for Multi-Phase Image-Based Fact Verification
- Title(参考訳): LookupForensics:多相画像ベースファクト検証のための大規模マルチタスクデータセット
- Authors: Shuhan Cui, Huy H. Nguyen, Trung-Nghia Le, Chun-Shien Lu, Isao Echizen,
- Abstract要約: これは、ジャーナリストが使用するテキストベースの事実チェックシステムに由来する名前です。
我々は,手作りの画像編集や機械学習による操作を多用した,この新しいタスクに適した大規模なデータセットを提案する。
- 参考スコア(独自算出の注目度): 15.616232457341097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Amid the proliferation of forged images, notably the tsunami of deepfake content, extensive research has been conducted on using artificial intelligence (AI) to identify forged content in the face of continuing advancements in counterfeiting technologies. We have investigated the use of AI to provide the original authentic image after deepfake detection, which we believe is a reliable and persuasive solution. We call this "image-based automated fact verification," a name that originated from a text-based fact-checking system used by journalists. We have developed a two-phase open framework that integrates detection and retrieval components. Additionally, inspired by a dataset proposed by Meta Fundamental AI Research, we further constructed a large-scale dataset that is specifically designed for this task. This dataset simulates real-world conditions and includes both content-preserving and content-aware manipulations that present a range of difficulty levels and have potential for ongoing research. This multi-task dataset is fully annotated, enabling it to be utilized for sub-tasks within the forgery identification and fact retrieval domains. This paper makes two main contributions: (1) We introduce a new task, "image-based automated fact verification," and present a novel two-phase open framework combining "forgery identification" and "fact retrieval." (2) We present a large-scale dataset tailored for this new task that features various hand-crafted image edits and machine learning-driven manipulations, with extensive annotations suitable for various sub-tasks. Extensive experimental results validate its practicality for fact verification research and clarify its difficulty levels for various sub-tasks.
- Abstract(参考訳): 偽造コンテンツの津波など、偽造画像の拡散のなかで、偽造技術の進歩が続く中で、偽造コンテンツを特定するために人工知能(AI)を用いた広範な研究がなされている。
我々は、ディープフェイク検出後の元の認証画像を提供するためのAIの使用を調査し、信頼性と説得力のあるソリューションであると信じている。
これは、ジャーナリストが使用するテキストベースの事実チェックシステムに由来する名前です。
我々は,検出と検索を統合した2段階のオープンフレームワークを開発した。
さらに、Meta Fundamental AI Researchが提案したデータセットにヒントを得て、このタスク用に特別に設計された大規模データセットをさらに構築しました。
このデータセットは現実世界の条件をシミュレートし、コンテント保存とコンテント認識の両方の操作を含む。
このマルチタスクデータセットは完全に注釈付けされており、偽造識別と事実検索ドメイン内のサブタスクに使用することができる。
本稿では,(1)新しいタスクである「画像ベース自動事実検証」を導入し,(2)「偽識別」と「ファクト検索」を組み合わせた新しい2段階のオープンフレームワークを提案する。(2)手作り画像編集と機械学習による操作を特徴とする,このタスクに適した大規模データセットを,様々なサブタスクに適したアノテーションを備えた形で提示する。
広範囲な実験結果から, 事実検証研究の実践性を検証し, 各種サブタスクの難易度を明らかにした。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Transformer based Multitask Learning for Image Captioning and Object
Detection [13.340784876489927]
本研究は,画像キャプションとオブジェクト検出を結合モデルに組み合わせた,新しいマルチタスク学習フレームワークを提案する。
我々は,2つのタスクを共同で訓練するためのTICOD, Transformer-based Image Captioning, Object Detectionモデルを提案する。
我々のモデルはBERTScoreの3.65%の改善によって、画像キャプション文学のベースラインを上回ります。
論文 参考訳(メタデータ) (2024-03-10T19:31:13Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Pre-training Multi-task Contrastive Learning Models for Scientific
Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。
文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:47:22Z) - Self-Supervised Graph Neural Network for Multi-Source Domain Adaptation [51.21190751266442]
ドメイン適応(DA)は、テストデータがトレーニングデータの同じ分布に完全に従わない場合に、シナリオに取り組む。
大規模未ラベルサンプルから学習することで、自己教師型学習がディープラーニングの新しいトレンドとなっている。
我々は,より効果的なタスク間情報交換と知識共有を実現するために,新しい textbfSelf-textbf Supervised textbfGraph Neural Network (SSG) を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:56Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Towards Efficient Cross-Modal Visual Textual Retrieval using
Transformer-Encoder Deep Features [10.163477961551592]
クロスモーダル検索は、現代の検索エンジンにおいて重要な機能である。
本稿では,画像文検索に焦点をあてる。
我々は最近導入されたTERNアーキテクチャを画像文特徴抽出器として利用する。
論文 参考訳(メタデータ) (2021-06-01T10:11:46Z) - Exploring Driving-aware Salient Object Detection via Knowledge Transfer [16.105754712355274]
我々は,サルエントオブジェクトのピクセルレベルマスクをアノテートしたタスク指向データセットを構築する。
クロスドメインの知識の相違とタスク固有のシーンギャップは、運転時に注意深いオブジェクトを集中させる2つの大きな課題です。
そこで本研究では,知識伝達畳み込みニューラルネットワークを用いたタスク認識型SODのベースラインモデルを提案する。
論文 参考訳(メタデータ) (2021-05-18T05:24:21Z) - Transformer Reasoning Network for Image-Text Matching and Retrieval [14.238818604272751]
マルチモーダルな大規模情報検索作業における画像テキストマッチングの問題点を考察する。
トランスフォーマー推論ネットワーク(TERN, Transformer Reasoning Network, TERN)は, 現代の関係認識型自己認識型トランスフォーマー(Transformer)のアーキテクチャである。
TERNは2つの異なるモダリティを別々に推論し、最終的な共通抽象概念空間を強制することができる。
論文 参考訳(メタデータ) (2020-04-20T09:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。