論文の概要: REVEAL -- Reasoning and Evaluation of Visual Evidence through Aligned Language
- arxiv url: http://arxiv.org/abs/2508.12543v1
- Date: Mon, 18 Aug 2025 00:42:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.853559
- Title: REVEAL -- Reasoning and Evaluation of Visual Evidence through Aligned Language
- Title(参考訳): REVEAL -- アライメント言語による視覚的エビデンスの推論と評価
- Authors: Ipsita Praharaj, Yukta Butala, Yash Butala,
- Abstract要約: 我々は、この偽造検出の問題を、大規模視覚言語モデルのセマンティックアライメント機能を活用して、プロンプト駆動型視覚推論タスクとして構成する。
本研究では, 画像全体の物理, セマンティクス, パースペクティブ, リアリズムに依存する全体的シーンレベル評価と, 画像を複数の領域に分割して解析する領域ワイド異常検出の2つの手法を提案する。
- 参考スコア(独自算出の注目度): 0.1474723404975345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of generative models has intensified the challenge of detecting and interpreting visual forgeries, necessitating robust frameworks for image forgery detection while providing reasoning as well as localization. While existing works approach this problem using supervised training for specific manipulation or anomaly detection in the embedding space, generalization across domains remains a challenge. We frame this problem of forgery detection as a prompt-driven visual reasoning task, leveraging the semantic alignment capabilities of large vision-language models. We propose a framework, `REVEAL` (Reasoning and Evaluation of Visual Evidence through Aligned Language), that incorporates generalized guidelines. We propose two tangential approaches - (1) Holistic Scene-level Evaluation that relies on the physics, semantics, perspective, and realism of the image as a whole and (2) Region-wise anomaly detection that splits the image into multiple regions and analyzes each of them. We conduct experiments over datasets from different domains (Photoshop, DeepFake and AIGC editing). We compare the Vision Language Models against competitive baselines and analyze the reasoning provided by them.
- Abstract(参考訳): 生成モデルの急速な進歩は、視覚的偽造の検出と解釈の難しさを増し、推論と局所化を提供しながら、画像偽造検出のための堅牢なフレームワークを必要としている。
既存の研究は、特定の操作や埋め込み空間における異常検出のための教師付きトレーニングを用いてこの問題にアプローチしているが、ドメイン間の一般化は依然として課題である。
我々は、この偽造検出の問題を、大規模視覚言語モデルのセマンティックアライメント機能を活用して、プロンプト駆動型視覚推論タスクとして構成する。
本稿では,一般化されたガイドラインを取り入れたフレームワークであるREVEAL(Reasoning and Evaluation of Visual Evidence through Aligned Language)を提案する。
本研究では,(1)画像全体の物理,意味論,視点,現実性に依存する全体的シーンレベル評価,(2)画像を複数の領域に分割して解析する領域ワイド異常検出という2つの具体的アプローチを提案する。
異なるドメイン(Photoshop、DeepFake、AIGC編集)のデータセット上で実験を行います。
視覚言語モデルと競争ベースラインを比較し、それらが提供する推論を分析する。
関連論文リスト
- A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning [9.786907179872815]
視覚と言語の可能性は、いまだに偽造検出に過小評価されている。
顔偽造検出を視覚質問応答(VQA)タスクに変換する方法論が必要である。
このギャップに対処するために,従来の二項決定パラダイムから分岐する多段階的アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:16:40Z) - WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization [63.98650220772378]
We present WIDIn, Wording Images for Domain-Invariant representation, to disentangleative discriminative visual representation。
まず、ドメイン固有の言語を適応的に識別し、削除するために使用可能な、きめ細かいアライメントを組み込んだ言語を推定する。
WIDInは、CLIPのような事前訓練された視覚言語モデルと、MoCoやBERTのような個別訓練されたユニモーダルモデルの両方に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-05-28T17:46:27Z) - Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - Visual Analytics for Efficient Image Exploration and User-Guided Image
Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。
本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文 参考訳(メタデータ) (2023-11-02T06:21:35Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Unveiling the Unseen: A Comprehensive Survey on Explainable Anomaly Detection in Images and Videos [49.07140708026425]
画像やビデオを含む視覚データの異常検出とローカライゼーションは、機械学習や現実世界のアプリケーションにおいて不可欠である。
本稿では,説明可能な2次元視覚異常検出(X-VAD)に焦点を当てた初の包括的調査を行う。
本稿では,その基礎技術によって分類された説明可能な手法の文献レビューを行う。
我々は、将来的な方向性と、説明品質の定量化を含むオープンな問題について議論する。
論文 参考訳(メタデータ) (2023-02-13T20:17:41Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。