論文の概要: Debate with Images: Detecting Deceptive Behaviors in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2512.00349v1
- Date: Sat, 29 Nov 2025 06:39:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.186282
- Title: Debate with Images: Detecting Deceptive Behaviors in Multimodal Large Language Models
- Title(参考訳): 画像を用いたディベート:多モーダル大言語モデルにおける知覚行動の検出
- Authors: Sitong Fang, Shiyi Hou, Kaile Wang, Boyuan Chen, Donghai Hong, Jiayi Zhou, Josef Dai, Yaodong Yang, Jiaming Ji,
- Abstract要約: MM-DeceptionBenchは、マルチモーダルな偽装を評価するために明示的に設計された最初のベンチマークである。
MM-DeceptionBenchは、視覚とテキストの組み合わせによってモデルがどのように戦略的に操作し、誤解を招くかを特徴付ける。
本稿では,新しいマルチエージェント・ディベート・モニタ・フレームワークである画像を用いた議論を提案する。
- 参考スコア(独自算出の注目度): 25.61834023007555
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Are frontier AI systems becoming more capable? Certainly. Yet such progress is not an unalloyed blessing but rather a Trojan horse: behind their performance leaps lie more insidious and destructive safety risks, namely deception. Unlike hallucination, which arises from insufficient capability and leads to mistakes, deception represents a deeper threat in which models deliberately mislead users through complex reasoning and insincere responses. As system capabilities advance, deceptive behaviours have spread from textual to multimodal settings, amplifying their potential harm. First and foremost, how can we monitor these covert multimodal deceptive behaviors? Nevertheless, current research remains almost entirely confined to text, leaving the deceptive risks of multimodal large language models unexplored. In this work, we systematically reveal and quantify multimodal deception risks, introducing MM-DeceptionBench, the first benchmark explicitly designed to evaluate multimodal deception. Covering six categories of deception, MM-DeceptionBench characterizes how models strategically manipulate and mislead through combined visual and textual modalities. On the other hand, multimodal deception evaluation is almost a blind spot in existing methods. Its stealth, compounded by visual-semantic ambiguity and the complexity of cross-modal reasoning, renders action monitoring and chain-of-thought monitoring largely ineffective. To tackle this challenge, we propose debate with images, a novel multi-agent debate monitor framework. By compelling models to ground their claims in visual evidence, this method substantially improves the detectability of deceptive strategies. Experiments show that it consistently increases agreement with human judgements across all tested models, boosting Cohen's kappa by 1.5x and accuracy by 1.25x on GPT-4o.
- Abstract(参考訳): フロンティアAIシステムはより有能になるか?
もちろんです。
しかし、そのような進歩は祝福されることなく、むしろトロイの木馬であり、彼らのパフォーマンスの跳躍の裏側は、より惨めで破壊的な安全リスク、すなわち騙し(deception)にある。
幻覚は能力不足から発生し、ミスにつながるが、誤認は、複雑な推論や不適切な反応を通じて、モデルが意図的にユーザーを誤解させるという、より深い脅威を表している。
システムの能力が向上するにつれて、偽装行動はテキストからマルチモーダル設定へと広がり、潜在的な害を増幅する。
まず第一に、これらの隠密なマルチモーダルな詐欺行為を監視するにはどうすればいいのか。
しかし、現在の研究はほとんどテキストに限られており、多モーダルな大言語モデルの誤認のリスクは未調査のままである。
そこで本研究では,マルチモーダル・デセプション・ベンチ(MM-DeceptionBench,MM-DeceptionBench,MM-DeceptionBench,MM-DeceptionBench,MM-DeceptionBench,MM-Decept ionBench,MM-DeceptionBench,MM-DeceptionBench,MM-DeceptionBench,MM-DeceptionBench,MM-DeceptionBench,M M-DeceptionBench,MM-DeceptionBench,MM-DeceptionBench,MM-DeceptionBench,MM-
MM-DeceptionBenchは、視覚とテキストの組み合わせによって、モデルがどのように戦略的に操作し、誤解を招くかを特徴付けている。
一方, 従来の手法では, マルチモーダルな騙し評価はほとんど盲点である。
そのステルスは、視覚的セマンティックな曖昧さとクロスモーダルな推論の複雑さが混ざり合っており、アクションモニタリングとチェーンオブ思考モニタリングは、ほとんど効果がない。
この課題に対処するために,新しいマルチエージェント・ディベート・モニタ・フレームワークである画像を用いた議論を提案する。
視覚的証拠に彼らの主張を根ざすような説得力のあるモデルによって、この方法は詐欺的戦略の検出可能性を大幅に改善する。
実験の結果、試験された全てのモデルにおける人間の判断との一致を一貫して増加させ、コーエンのカッパを1.5倍、GPT-4oの精度を1.25倍に向上させた。
関連論文リスト
- DeceptionBench: A Comprehensive Benchmark for AI Deception Behaviors in Real-world Scenarios [57.327907850766785]
現実的な現実のシナリオにまたがる騙しのキャラクタリゼーションは未解明のままである。
DeceptionBenchは、さまざまなドメインにまたがる認知傾向を体系的に評価する最初のベンチマークです。
本研究は,本質的な側面から,ユーザ満足度を優先する自己関心のエゴスティックな傾向を示すモデルや,サイコファンティックな行動を示すモデルについて検討する。
実世界のフィードバックダイナミクスのより現実的なシミュレーションを構築するために,持続的マルチターン相互作用ループを組み込んだ。
論文 参考訳(メタデータ) (2025-10-17T10:14:26Z) - The Mirage of Multimodality: Where Truth is Tested and Honesty Unravels [22.497467057872377]
本研究は,マルチモーダル文脈におけるシステムIおよびシステムII推論に伴う歪みに関する最初の系統的研究である。
遅い推論モデルは、不完全あるいは誤解を招く視覚的入力を提示すると、欠陥のある推論をサポートするために、妥当で誤った詳細をつくり出す傾向にあることを実証する。
論文 参考訳(メタデータ) (2025-05-26T16:55:38Z) - Adversarial Attacks in Multimodal Systems: A Practitioner's Survey [1.4513830934124627]
マルチモーダルモデルは、テキスト、画像、ビデオ、オーディオを理解するために訓練されています。
オープンソースモデルはすべてのモダリティの脆弱性を継承し、敵の脅威が増幅する。
本論文は,4つのモダリティを対象とする敵攻撃を調査することで,そのギャップを解消する。
我々の知る限りでは、この調査は、マルチモーダル世界の脅威景観を包括的に要約した初めてのものである。
論文 参考訳(メタデータ) (2025-05-06T00:41:16Z) - Robust image classification with multi-modal large language models [4.709926629434273]
逆の例では、ディープニューラルネットワークが不正確な予測を高い信頼性で行う可能性がある。
これらの脆弱性を軽減するために、事前にモデルを強化するために、敵の訓練と検出に基づく防御が提案されている。
本稿では,これらの防衛を多モード情報と組み合わせ,補完する新しい防衛手法であるMultiShieldを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:49:25Z) - BadCM: Invisible Backdoor Attack Against Cross-Modal Learning [110.37205323355695]
クロスモーダルバックドアにおけるパズルの欠片を補うために,新たな両面バックドアを導入する。
BadCMは、1つの統合されたフレームワーク内で多様なクロスモーダルアタックのために意図的に設計された最初の目に見えないバックドアメソッドである。
論文 参考訳(メタデータ) (2024-10-03T03:51:53Z) - Towards Probing Speech-Specific Risks in Large Multimodal Models: A Taxonomy, Benchmark, and Insights [50.89022445197919]
本研究は,8つのリスクカテゴリーを敵意(悪意的皮肉と脅し),悪意的模倣(年齢,性別,民族),ステレオタイプ的バイアス(年齢,性別,民族)を対象とする音声特異的リスク分類法を提案する。
分類に基づいて,これらのリスクのカテゴリを検出するために,現在のLMM能力を評価するための小規模データセットを作成する。
論文 参考訳(メタデータ) (2024-06-25T10:08:45Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。
我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。
オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文 参考訳(メタデータ) (2024-03-20T11:27:20Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Learning Polysemantic Spoof Trace: A Multi-Modal Disentanglement Network
for Face Anti-spoofing [34.44061534596512]
本稿では,より正確で堅牢な汎用攻撃検出のために,多面的スプーフトレースをターゲットとしたマルチモーダル・アンタングルモデルを提案する。
特に、対角学習機構に基づいて、RGBと深度入力からそれぞれスプーフパターンを推定する2ストリームディエンタングリングネットワークを設計する。
論文 参考訳(メタデータ) (2022-12-07T20:23:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。