論文の概要: Image Realness Assessment and Localization with Multimodal Features
- arxiv url: http://arxiv.org/abs/2509.13289v1
- Date: Tue, 16 Sep 2025 17:42:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.212904
- Title: Image Realness Assessment and Localization with Multimodal Features
- Title(参考訳): マルチモーダル特徴を用いた画像の現実性評価と位置決め
- Authors: Lovish Kaushik, Agnij Biswas, Somdyuti Paul,
- Abstract要約: AI生成画像の知覚現実性を定量化する信頼性の高い手法は、実用化と、生成AIのフォトリアリズム向上に不可欠である。
本稿では,AI生成画像の客観的現実性評価と局所的不整合同定を両立させる枠組みを提案する。
- 参考スコア(独自算出の注目度): 3.1415249818332813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A reliable method of quantifying the perceptual realness of AI-generated images and identifying visually inconsistent regions is crucial for practical use of AI-generated images and for improving photorealism of generative AI via realness feedback during training. This paper introduces a framework that accomplishes both overall objective realness assessment and local inconsistency identification of AI-generated images using textual descriptions of visual inconsistencies generated by vision-language models trained on large datasets that serve as reliable substitutes for human annotations. Our results demonstrate that the proposed multimodal approach improves objective realness prediction performance and produces dense realness maps that effectively distinguish between realistic and unrealistic spatial regions.
- Abstract(参考訳): AI生成画像の知覚現実性を定量化し、視覚的に一貫性のない領域を同定する信頼性の高い手法は、AI生成画像の実用化と、トレーニング中の現実性フィードバックによる生成AIのフォトリアリズム向上に不可欠である。
本稿では,人間のアノテーションの信頼性のある代用として,大規模データセット上で学習された視覚言語モデルによって生成される視覚的不整合のテキスト記述を用いて,AI生成画像の全体的現実性評価と局所的不整合同定を実現するフレームワークを提案する。
提案手法は,現実的空間領域と非現実的空間領域を効果的に区別する高密度現実性マップを作成した。
関連論文リスト
- Bridging the Gap Between Ideal and Real-world Evaluation: Benchmarking AI-Generated Image Detection in Challenging Scenarios [54.07895223545793]
本稿では,実世界ロバストネスデータセット(RRDataset)を導入し,3次元にわたる検出モデルの包括的評価を行う。
RRDatasetには7つの主要なシナリオの高品質なイメージが含まれている。
我々はRRDataset上で17の検出器と10の視覚言語モデル(VLM)をベンチマークし、大規模な人間実験を行った。
論文 参考訳(メタデータ) (2025-09-11T06:15:52Z) - Task-driven real-world super-resolution of document scans [41.61731067095584]
シングルイメージ超解像(英: Single-image Super- resolution)とは、単一の低分解能観測から高分解能画像の再構成を指す。
光文字認識タスクに最適化された超高解像度ネットワークをトレーニングするためのタスク駆動型マルチタスク学習フレームワークを提案する。
SRResNetアーキテクチャに対する我々のアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-08T00:16:29Z) - RAISE: Realness Assessment for Image Synthesis and Evaluation [3.7619101673213664]
我々は、実感予測のためのベースラインを確立するために、RAISEのモデルを開発し、訓練する。
実験結果から,深い基盤視モデルから得られた特徴が主観的現実性を効果的に捉えることができることが示された。
論文 参考訳(メタデータ) (2025-05-25T17:14:43Z) - So-Fake: Benchmarking and Explaining Social Media Image Forgery Detection [75.79507634008631]
So-Fake-Setは、200万以上の高品質な画像、多様な生成源、35の最先端生成モデルを用いて合成された画像を備えたソーシャルメディア指向のデータセットである。
本稿では,高精度な偽造検出,高精度な位置推定,解釈可能な視覚論理による説明可能な推論に強化学習を利用する高度な視覚言語フレームワークであるSo-Fake-R1を提案する。
論文 参考訳(メタデータ) (2025-05-24T11:53:35Z) - FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics [66.14786900470158]
本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。
FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。
FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-31T16:12:48Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。
RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文 参考訳(メタデータ) (2024-05-30T14:49:54Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - DASGIL: Domain Adaptation for Semantic and Geometric-aware Image-based
Localization [27.294822556484345]
環境変化下での視覚的長期化は、自律走行と移動ロボット工学において難しい問題である。
視覚的位置認識のための多スケール潜在埋め込み表現に幾何学的および意味的情報を融合する新しいマルチタスクアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-10-01T17:44:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。