論文の概要: SynCred-Bench: Benchmarking Synthetic Credibility in AI-Generated Visual Misinformation
- arxiv url: http://arxiv.org/abs/2606.03348v1
- Date: Tue, 02 Jun 2026 08:57:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.886967
- Title: SynCred-Bench: Benchmarking Synthetic Credibility in AI-Generated Visual Misinformation
- Title(参考訳): SynCred-Bench:AI生成した視覚的誤報における総合的信頼性のベンチマーク
- Authors: Junxiao Yang, Minghao Zhang, Xiaoce Wang, Haoran Liu, Shiyao Cui, Hongning Wang, Minlie Huang,
- Abstract要約: SynCRED-Benchは、信頼できる6つのカテゴリと7つのきめ細かい循環スタイルでバランスをとる、600個のAI生成の誤情報画像のベンチマークである。
5%の偽陽性レートの制約の下で、15個のMLLMは10.5%の真正レート(TPR)しか達成せず、オープンソースのAIGC検出器は5%以下である。
また、ヒトのアノテーターは合成信頼性の同定にも苦労し、TPRはわずか63%に達した。
- 参考スコア(独自算出の注目度): 82.22252244442744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent generative models can now produce visual artifacts with realistic embedded text and layouts, creating a new misinformation threat: synthetic credibility. We introduce SYNCRED-Bench, a benchmark of 600 AI-generated misinformation images balanced across six credible-form categories and seven fine-grained circulation styles, together with FP450, a real-image negative set for measuring false positives. Extensive evaluation shows that existing systems remain unreliable: under a 5% false-positive-rate constraint, 15 MLLMs achieve only 10.5% true positive rate (TPR), open-source AIGC detectors achieve less than 5%, and commercial APIs reach 57.6%. Human annotators also struggled to identify synthetic credibility, reaching only 63% TPR. These findings establish synthetic credibility as a severe and underexplored visual misinformation challenge, and provide a benchmark for developing detectors that reason beyond superficial credibility cues.
- Abstract(参考訳): 最近の生成モデルは、リアルな埋め込みテキストとレイアウトで視覚的なアーティファクトを生成できるようになった。
我々は、6つの信頼可能な形式と7つのきめ細かな循環スタイルのバランスをとる600個のAI生成誤情報画像のベンチマークであるSynCRED-Benchと、偽陽性を測定するための実画像負セットであるFP450を紹介する。
5%の偽陽性率制約の下で、15個のMLLMは10.5%の真正率(TPR)、オープンソースのAIGC検出器は5%未満、商用APIは57.6%に達する。
ヒトのアナテーターも合成信頼性の同定に苦慮し、TPRはわずか63%に達した。
これらの知見は, 合成信頼性を, 過度かつ過度に探索された視覚的誤報の課題として確立し, 表面的信頼性を超越した検出方法を開発するためのベンチマークを提供する。
関連論文リスト
- Open-Set Vein Biometric Recognition with Deep Metric Learning [0.0]
我々は厳密なオープンセット制約の下でDeep Metric Learning(DML)の計算境界を厳格に評価する。
提案手法は,非ネイティブなL2正規化埋め込みを学習し,類似性しきい値を用いたプロトタイプベースマッチングを採用する。
大規模MMCBNU 6000ベンチマークでは、我々の最良のモデル(ResNet50-CBAM)がOSCR 0.9945、AUROC 0.9974、EER 1.57%を達成し、高い識別精度 (99.6% Rank-1) を維持しながら、未知の被験者を頑健に拒否する。
論文 参考訳(メタデータ) (2026-04-16T11:03:11Z) - Multi-Axis Trust Modeling for Interpretable Account Hijacking Detection [1.0152838128195467]
本稿では,ハディスにインスパイアされたマルチ軸信頼モデリングフレームワークを提案する。
我々は,5つの信頼軸 – 長期的整合性(アダラ),行動精度(ダブト),文脈連続性(アイソナド),累積的評価,異常証拠 – を,ユーザアカウントに対して意味論的に意味のある行動特徴からなる26のコンパクトなセットに翻訳する。
CLUE-LDSクラウドアクティビティデータセットのフレームワークを,インジェクトされたアカウントハイジャックシナリオを用いて評価した。
論文 参考訳(メタデータ) (2026-02-20T19:36:30Z) - Predictive Coding and Information Bottleneck for Hallucination Detection in Large Language Models [0.8552050317027305]
大規模言語モデル(LLM)における幻覚は、高レベルのデプロイメントにとって重要な障壁である。
ニューロサイエンスにインスパイアされた信号設計と教師付き機械学習を組み合わせたハイブリッド検出フレームワークである[Model Name]を紹介する。
論文 参考訳(メタデータ) (2026-01-22T05:00:21Z) - From Memorization to Creativity: LLM as a Designer of Novel Neural-Architectures [48.83701310501069]
大規模言語モデル(LLM)は、プログラム合成において優れているが、ニューラルネットワーク設計(信頼性、性能、構造的ノベルティ)を自律的にナビゲートする能力は、未調査のままである。
コード指向LLMをクローズドループ合成フレームワークに配置し、22の教師付き微調整サイクルの進化を解析することによって、この問題に対処する。
論文 参考訳(メタデータ) (2026-01-06T13:20:28Z) - VISION: Robust and Interpretable Code Vulnerability Detection Leveraging Counterfactual Augmentation [6.576811224645293]
グラフニューラルネットワーク(GNN)は、構造的および論理的コード関係をデータ駆動で学習することができる。
GNNは表面的なコード類似性から'spurious'相関を学習することが多い。
我々は、VISIONと呼ばれる堅牢で解釈可能な脆弱性検出のための統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-26T11:20:39Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Synchronous Faithfulness Monitoring for Trustworthy Retrieval-Augmented Generation [96.78845113346809]
Retrieval-augmented Language Model (RALMs) は、知識集約型タスクにおいて、高い性能と幅広い適用性を示している。
本稿では,非偽文の検出に微細な復号力学を利用する軽量モニタであるSynCheckを提案する。
また、長文検索拡張生成のためのビームサーチによって導かれる忠実度指向の復号アルゴリズムであるFODを導入する。
論文 参考訳(メタデータ) (2024-06-19T16:42:57Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。