論文の概要: Pixels Don't Lie (But Your Detector Might): Bootstrapping MLLM-as-a-Judge for Trustworthy Deepfake Detection and Reasoning Supervision
- arxiv url: http://arxiv.org/abs/2602.19715v1
- Date: Mon, 23 Feb 2026 11:08:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.782469
- Title: Pixels Don't Lie (But Your Detector Might): Bootstrapping MLLM-as-a-Judge for Trustworthy Deepfake Detection and Reasoning Supervision
- Title(参考訳): カメラは嘘をつかない(でも検出機は): MLLM-as-a-Judgeは、信頼できるディープフェイク検出と推論のスーパービジョンのためのブートストラップ
- Authors: Kartik Kuckreja, Parul Gupta, Muhammad Haris Khan, Abhinav Dhall,
- Abstract要約: DeepfakeJudgeはスケーラブルな推論の監視と評価のためのフレームワークです。
これは、最近の生成および編集のフォージェリー、視覚的推論ラベルを持つ人間の注釈付きサブセット、および一連の評価モデルを含む、配布外ベンチマークを統合している。
- 参考スコア(独自算出の注目度): 25.382800247901827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deepfake detection models often generate natural-language explanations, yet their reasoning is frequently ungrounded in visual evidence, limiting reliability. Existing evaluations measure classification accuracy but overlook reasoning fidelity. We propose DeepfakeJudge, a framework for scalable reasoning supervision and evaluation, that integrates an out-of-distribution benchmark containing recent generative and editing forgeries, a human-annotated subset with visual reasoning labels, and a suite of evaluation models, that specialize in evaluating reasoning rationales without the need for explicit ground truth reasoning rationales. The Judge is optimized through a bootstrapped generator-evaluator process that scales human feedback into structured reasoning supervision and supports both pointwise and pairwise evaluation. On the proposed meta-evaluation benchmark, our reasoning-bootstrapped model achieves an accuracy of 96.2\%, outperforming \texttt{30x} larger baselines. The reasoning judge attains very high correlation with human ratings and 98.9\% percent pairwise agreement on the human-annotated meta-evaluation subset. These results establish reasoning fidelity as a quantifiable dimension of deepfake detection and demonstrate scalable supervision for interpretable deepfake reasoning. Our user study shows that participants preferred the reasonings generated by our framework 70\% of the time, in terms of faithfulness, groundedness, and usefulness, compared to those produced by other models and datasets. All of our datasets, models, and codebase are \href{https://github.com/KjAeRsTuIsK/DeepfakeJudge}{open-sourced}.
- Abstract(参考訳): ディープフェイク検出モデルは、しばしば自然言語による説明を生成するが、その推論は、信頼性を制限し、視覚的証拠には見当たらないことが多い。
既存の評価は分類精度を測るが、正当性を見落としている。
本稿では,視覚的推論ラベルを付加した人称アノテートサブセットと,合理的な根拠的推論を必要とせずに理性評価を専門とする評価モデルとを統合した,スケーラブルな推論の監督と評価のためのフレームワークであるDeepfakeJudgeを提案する。
審査員は、人からのフィードバックを構造化推論監視に拡張し、ポイントワイドとペアワイドの両方の評価をサポートするブートストラップ付きジェネレータ評価プロセスを通じて最適化される。
提案したメタ評価ベンチマークでは,推理ブートストラップモデルにより96.2\%の精度を達成し,より大きなベースラインを達成できた。
理由づけ審査員は、人間の評価と非常に高い相関と、人間の注釈付きメタ評価サブセットに対する98.9%のペアワイズ合意を達成している。
これらの結果は、深度検出の定量次元としての推論忠実度を確立し、解釈可能な深度推定のためのスケーラブルな監視を実証する。
私たちのユーザ調査では、参加者は他のモデルやデータセットよりも、忠実さ、基礎性、有用性の観点から、私たちのフレームワークが生成した推論を70パーセント好んだことが示されています。
すべてのデータセット、モデル、コードベースは \href{https://github.com/KjAeRsTuIsK/DeepfakeJudge}{open-sourced} です。
関連論文リスト
- Multimodal Fact-Level Attribution for Verifiable Reasoning [80.60864342985748]
マルチモーダル大言語モデル(MLLM)は、多段階推論と長文生成を含む実世界のタスクにますます利用されている。
既存のマルチモーダルグラウンドベンチマークと評価手法は、複雑なマルチモーダル推論における属性評価に失敗する。
我々は、直接観察以上の推論を必要とする設定において、ファクトレベルのマルチモーダル属性を評価するためのベンチマークであるMuRGAtを紹介する。
論文 参考訳(メタデータ) (2026-02-12T03:10:02Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - Where is this coming from? Making groundedness count in the evaluation of Document VQA models [12.951716701565019]
一般的な評価指標は、モデルの出力のセマンティックおよびマルチモーダルな基礎性を考慮しない。
本稿では,予測の基盤性を考慮した新しい評価手法を提案する。
提案手法は,ユーザが好みに応じてスコアを設定できるようにパラメータ化されている。
論文 参考訳(メタデータ) (2025-03-24T20:14:46Z) - Ev2R: Evaluating Evidence Retrieval in Automated Fact-Checking [11.300523252168327]
Evtextsuperscript2Rは、基準ベースの評価と検証レベルのプロキシスコアの長所を組み合わせる。
Evtextsuperscript2Rは、精度と堅牢性において既存のスコアリング手法より一貫して優れている。
論文 参考訳(メタデータ) (2024-11-08T07:05:06Z) - A Backdoor-based Explainable AI Benchmark for High Fidelity Evaluation of Attributions [60.06461883533697]
まず、属性手法の信頼性ベンチマークが満たすであろう信頼度基準のセットを同定する。
次に、望ましい忠実度基準に準拠したBackdoorベースのeXplainable AIベンチマーク(BackX)を紹介します。
我々の分析はまた、属性を利用して神経トロイの木馬を守るための洞察を提供する。
論文 参考訳(メタデータ) (2024-05-02T13:48:37Z) - Human Feedback is not Gold Standard [28.63384327791185]
我々は、トレーニングと評価の両方において、人間のフィードバックの使用を批判的に分析する。
選好スコアはかなり良いカバレッジを持っているが、事実性のような重要な側面は低く表現されている。
論文 参考訳(メタデータ) (2023-09-28T11:18:20Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。