論文の概要: ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection
- arxiv url: http://arxiv.org/abs/2509.19841v1
- Date: Wed, 24 Sep 2025 07:34:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.720841
- Title: ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection
- Title(参考訳): ThinkFake:AI生成画像検出のためのマルチモーダル大規模言語モデルの推論
- Authors: Tai-Ming Huang, Wei-Tung Lin, Kai-Lung Hua, Wen-Huang Cheng, Junichi Yamagishi, Jun-Cheng Chen,
- Abstract要約: AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こしている。
我々は、AI生成画像検出のための新しい推論に基づく一般化可能なフレームワークThinkFakeを提案する。
我々は、ThinkFakeがGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークで強力なゼロショットの一般化を示すことを示す。
- 参考スコア(独自算出の注目度): 51.93101033997245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing realism of AI-generated images has raised serious concerns about misinformation and privacy violations, highlighting the urgent need for accurate and interpretable detection methods. While existing approaches have made progress, most rely on binary classification without explanations or depend heavily on supervised fine-tuning, resulting in limited generalization. In this paper, we propose ThinkFake, a novel reasoning-based and generalizable framework for AI-generated image detection. Our method leverages a Multimodal Large Language Model (MLLM) equipped with a forgery reasoning prompt and is trained using Group Relative Policy Optimization (GRPO) reinforcement learning with carefully designed reward functions. This design enables the model to perform step-by-step reasoning and produce interpretable, structured outputs. We further introduce a structured detection pipeline to enhance reasoning quality and adaptability. Extensive experiments show that ThinkFake outperforms state-of-the-art methods on the GenImage benchmark and demonstrates strong zero-shot generalization on the challenging LOKI benchmark. These results validate our framework's effectiveness and robustness. Code will be released upon acceptance.
- Abstract(参考訳): AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こし、正確かつ解釈可能な検出方法の緊急の必要性を強調している。
既存のアプローチは進歩してきたが、ほとんどの場合、説明なしに二項分類に依存したり、教師付き微調整に大きく依存しているため、一般化は限られている。
本稿では,AI生成画像検出のための新しい推論と一般化可能なフレームワークであるThinkFakeを提案する。
提案手法は, フォージェリ推論プロンプトを備えたマルチモーダル大言語モデル(MLLM)を活用し, グループ相対ポリシー最適化(GRPO)強化学習を用いて, 慎重に設計した報酬関数を用いて訓練する。
この設計により、モデルはステップバイステップの推論を実行し、解釈可能で構造化された出力を生成することができる。
さらに、推論品質と適応性を高めるために、構造化検出パイプラインを導入します。
大規模な実験により、ThinkFakeはGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークでは強力なゼロショットの一般化を示している。
これらの結果は、我々のフレームワークの有効性と堅牢性を検証する。
コードは受理時にリリースされる。
関連論文リスト
- Towards Explainable Fake Image Detection with Multi-Modal Large Language Models [38.09674979670241]
偽画像検出は「ブラックボックス」として動作すべきでないと我々は主張する
本研究では,従来の検出手法や人体評価装置と比較して,MLLMの能力を評価する。
本稿では、これらのプロンプトを統合して、より堅牢で説明可能な、推論駆動型検出システムを開発するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-19T09:42:25Z) - Towards Generalizable Forgery Detection and Reasoning [23.858913560970866]
We formulate detection and explanation as a unified forgery Detection and Reasoning task (FDR-Task)
マルチモーダル・フォージェリー推論データセット (MMFR-Dataset) は10つの生成モデルにわたる120K画像を含む大規模データセットであり, フォージェリー属性には378Kの推論アノテーションがある。
複数の生成モデルに対する実験により、FakeReasoningは堅牢な一般化を実現し、検出タスクと推論タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-03-27T06:54:06Z) - Automated Processing of eXplainable Artificial Intelligence Outputs in Deep Learning Models for Fault Diagnostics of Large Infrastructures [13.422002958854936]
本研究は, ポストホックな説明と半教師付き学習を組み合わせて, 異常な説明を自動的に識別するフレームワークを提案する。
提案するフレームワークは,送電網インフラ監視のための絶縁体シェルのドローンによる画像に応用される。
2つの欠陥クラスの平均分類精度は8%向上し、メンテナンス作業者は画像の15%しか手動で再分類する必要がある。
論文 参考訳(メタデータ) (2025-03-19T16:57:00Z) - DILLEMA: Diffusion and Large Language Models for Multi-Modal Augmentation [0.13124513975412253]
本稿では,大規模言語モデルと制御条件拡散モデルを活用した視覚ニューラルネットワークのテストフレームワークを提案する。
私たちのアプローチは、キャプションモデルを用いて画像から詳細なテキスト記述に変換することから始まります。
これらの記述は、テキストから画像への拡散プロセスを通じて、新しいテスト画像を生成するために使用される。
論文 参考訳(メタデータ) (2025-02-05T16:35:42Z) - Interpretable Face Anti-Spoofing: Enhancing Generalization with Multimodal Large Language Models [58.936893810674896]
顔認識システムのセキュリティと信頼性を確保するためには,FAS(Face Anti-Spoofing)が不可欠である。
I-FAS(Interpretable Face Anti-Spoofing)と呼ばれるFASのためのマルチモーダルな大規模言語モデルフレームワークを提案する。
本稿では,FAS画像の高品質なキャプションを生成するために,Spof-Aware Captioning and Filtering(SCF)戦略を提案する。
論文 参考訳(メタデータ) (2025-01-03T09:25:04Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。
RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文 参考訳(メタデータ) (2024-05-30T14:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。