Fugu-MT 論文翻訳(概要): GIM: A Million-scale Benchmark for Generative Image Manipulation Detection and Localization

論文の概要: GIM: A Million-scale Benchmark for Generative Image Manipulation Detection and Localization

arxiv url: http://arxiv.org/abs/2406.16531v1
Date: Mon, 24 Jun 2024 11:10:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-25 15:14:19.615370
Title: GIM: A Million-scale Benchmark for Generative Image Manipulation Detection and Localization
Title（参考訳）: GIM: 生成画像操作検出と位置推定のための100万規模のベンチマーク
Authors: Yirui Chen, Xudong Huang, Quan Zhang, Wei Li, Mingjian Zhu, Qiangyu Yan, Simiao Li, Hanting Chen, Hailin Hu, Jie Yang, Wei Liu, Jie Hu,
Abstract要約: ローカル操作パイプラインは、強力なSAM、ChatGPT、生成モデルを組み込んだ設計である。 1)AIが操作する画像と実際の画像のペアが100万以上含まれる大規模なデータセット。本稿では、シャドウトレーサ、周波数空間ブロック(FSB)、マルチウィンドウ異常モデリング(MWAM)モジュールからなる新しいIMDLフレームワークGIMFormerを提案する。
参考スコア（独自算出の注目度）: 21.846935203845728
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The extraordinary ability of generative models emerges as a new trend in image editing and generating realistic images, posing a serious threat to the trustworthiness of multimedia data and driving the research of image manipulation detection and location(IMDL). However, the lack of a large-scale data foundation makes IMDL task unattainable. In this paper, a local manipulation pipeline is designed, incorporating the powerful SAM, ChatGPT and generative models. Upon this basis, We propose the GIM dataset, which has the following advantages: 1) Large scale, including over one million pairs of AI-manipulated images and real images. 2) Rich Image Content, encompassing a broad range of image classes 3) Diverse Generative Manipulation, manipulated images with state-of-the-art generators and various manipulation tasks. The aforementioned advantages allow for a more comprehensive evaluation of IMDL methods, extending their applicability to diverse images. We introduce two benchmark settings to evaluate the generalization capability and comprehensive performance of baseline methods. In addition, we propose a novel IMDL framework, termed GIMFormer, which consists of a ShadowTracer, Frequency-Spatial Block (FSB), and a Multi-window Anomalous Modelling (MWAM) Module. Extensive experiments on the GIM demonstrate that GIMFormer surpasses previous state-of-the-art works significantly on two different benchmarks.
Abstract（参考訳）: 生成モデルの異常な能力は、画像編集と現実的な画像生成の新しいトレンドとして現れ、マルチメディアデータの信頼性に深刻な脅威を与え、画像操作検出と位置(IMDL)の研究を推進している。しかし、大規模なデータ基盤がないため、IMDLタスクは実現不可能である。本稿では,強力なSAM, ChatGPT, 生成モデルを組み合わせた局所的な操作パイプラインを設計する。そこで我々は,以下の利点を有するGIMデータセットを提案する。 1)AIが操作する画像と実画像のペアを100万枚以上含む大規模なもの。 2)多様な画像クラスを含むリッチ画像コンテンツ 3) 多様な生成操作, 最先端ジェネレータによる画像操作, 各種操作タスク。前述の利点により、IMDLメソッドのより包括的な評価が可能となり、多様な画像に適用可能になった。ベースライン手法の一般化能力と総合性能を評価するためのベンチマーク設定を2つ導入する。さらに、シャドウトラッカー、周波数空間ブロック(FSB)、マルチウィンドウ異常モデリング(MWAM)モジュールからなる新しいIMDLフレームワークGIMFormerを提案する。 GIMに関する大規模な実験は、GIMFormerが2つの異なるベンチマークで過去の最先端の成果を大幅に上回っていることを示している。

関連論文リスト

MICON-Bench: Benchmarking and Enhancing Multi-Image Context Image Generation in Unified Multimodal Models [89.89575486159795]
マルチイメージコンテキスト生成のためのベンチマークである textbfMICON-Bench を導入する。本稿では,意味的および視覚的整合性の自動検証のためのMLLM駆動型評価-Checkpointフレームワークを提案する。また、推論中に注意を動的に調整し、コヒーレンスを高め、幻覚を減らす訓練不要なプラグアンドプレイ機構であるtextbfDynamic Attention Rebalancing (DAR) を提案する。
論文参考訳（メタデータ） (2026-02-23T04:32:52Z)
More Images, More Problems? A Controlled Analysis of VLM Failure Modes [80.64323947730905]
大規模視覚言語モデル (LVLM) は目覚ましい能力を示しているが、複数の画像に対する理解と推論の能力は未解明のままである。 LVLMのマルチイメージ能力を厳格に評価する新しいベンチマークMIMICを紹介する。
論文参考訳（メタデータ） (2026-01-12T18:45:13Z)
ManipShield: A Unified Framework for Image Manipulation Detection, Localization and Explanation [81.52606410224136]
画像操作検出と局所化のための大規模ベンチマークである textbfManipBench を提案する。また,マルチモーダル大言語モデル(MLLM)に基づくオールインワンモデルであるtextbfManipShieldを提案する。
論文参考訳（メタデータ） (2025-11-18T08:50:17Z)
OIG-Bench: A Multi-Agent Annotated Benchmark for Multimodal One-Image Guides Understanding [26.45873982159107]
OIG-Benchは、様々な領域にわたるワンイメージガイド理解に焦点を当てたベンチマークである。我々は、プロプライエタリモデルとオープンソースモデルの両方を含む29の最先端MLLMの総合評価を行った。その結果,Qwen2.5-VL-72Bは評価モデルの中で最高の性能を示し,全体の精度は77%であった。
論文参考訳（メタデータ） (2025-09-29T15:44:08Z)
LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer [32.9330637921386]
LAMICはレイアウト対応のマルチイメージコンポジションフレームワークである。単一の参照拡散モデルをトレーニング不要な方法でマルチ参照シナリオに拡張する。 ID-S、BG-S、IN-R、AVGのスコアにおいて、既存のマルチ参照ベースラインを一貫して上回る。
論文参考訳（メタデータ） (2025-08-01T09:51:54Z)
Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文参考訳（メタデータ） (2025-01-10T07:56:23Z)
MMO-IG: Multi-Class and Multi-Scale Object Image Generation for Remote Sensing [12.491684385808902]
MMO-IGは、グローバルな面とローカルな面から、教師付きオブジェクトラベルでRS画像を生成するように設計されている。 MMO間の複雑な相互依存性を考慮すると、空間的相互依存知識グラフを構築する。 MMO-IGは、高密度なMMO教師付きラベルを持つRS画像に対して優れた生成能力を示す。
論文参考訳（メタデータ） (2024-12-18T10:19:12Z)
ProVision: Programmatically Scaling Vision-centric Instruction Data for Multimodal Language Models [103.25208095165486]
既存のプラクティスは命令データを生成するために、強力だが高価な言語モデル(LLM)やマルチモーダル言語モデル(MLM)に依存している。本稿では,シーングラフを画像のシンボル表現として利用し,視覚中心の命令データを体系的に合成するプログラムを提案する。提案手法は,データ生成プロセスの解釈可能性と制御性を保証し,実際の精度を維持しながら効率よくスケールする。
論文参考訳（メタデータ） (2024-12-09T21:44:02Z)
Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications [3.7636375810345744]
大きな言語モデル(LLM)は、質問に答える際、印象的な能力を示してきたが、それらはドメイン固有の知識に欠け、幻覚を起こす傾向がある。 Retrieval Augmented Generation(RAG)は、これらの課題に対処するためのアプローチのひとつであり、マルチモーダルモデルは、テキストとイメージの両方を処理するための有望なAIアシスタントとして現れている。本稿では,産業領域のRAGシステムにマルチモーダルモデルをどのように組み込むかを決定するための一連の実験について述べる。
論文参考訳（メタデータ） (2024-10-29T11:03:31Z)
Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文参考訳（メタデータ） (2024-08-20T09:58:30Z)
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文参考訳（メタデータ） (2024-08-08T17:10:16Z)
INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model [71.50973774576431]
本稿では,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。我々はDCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点から連続的な詳細を含むことを保証する。第2に,グローバルな特徴と局所的な特徴の相互強化を可能にするDEM(Dual-perspective Enhancement Module)を導入する。
論文参考訳（メタデータ） (2024-07-23T06:02:30Z)
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文参考訳（メタデータ） (2024-03-14T17:51:32Z)
CoCoT: Contrastive Chain-of-Thought Prompting for Large Multimodal Models with Multiple Image Inputs [48.269363759989915]
この研究は、第1、画像対画像マッチング、第2、複数画像対テキストマッチングという2つの側面に焦点を当てている。我々は, GPT-4V, Gemini, OpenFlamingo, MMICLを含む, オープンソースおよびクローズドソースの大規模モデルについて評価を行った。
論文参考訳（メタデータ） (2024-01-05T00:26:07Z)
PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文参考訳（メタデータ） (2024-01-01T03:45:07Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文参考訳（メタデータ） (2022-02-21T10:40:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。