論文の概要: DoPE: Decoy Oriented Perturbation Encapsulation Human-Readable, AI-Hostile Documents for Academic Integrity
- arxiv url: http://arxiv.org/abs/2601.12505v1
- Date: Sun, 18 Jan 2026 17:34:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.65601
- Title: DoPE: Decoy Oriented Perturbation Encapsulation Human-Readable, AI-Hostile Documents for Academic Integrity
- Title(参考訳): DoPE: アカデミック・インテリジェンスのための非行指向摂動カプセル化人間可読型AIHostileドキュメンテーション
- Authors: Ashish Raj Shekhar, Shiven Agarwal, Priyanuj Bordoloi, Yash Shah, Tejas Anvekar, Vivek Gupta,
- Abstract要約: DoPEは、PDF/HTMLアセスメントにセマンティックデコイを埋め込むドキュメント層防御フレームワークである。
FewSoRT-Qは疑問レベルセマンティックデコイを生成し、FewSoRT-Dはそれらを透かしの文書にカプセル化する。
DoPE は OpenAI と Anthropic のブラックボックスMLLM に対して強い経験的利益をもたらす。
- 参考スコア(独自算出の注目度): 10.808479217513181
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) can directly consume exam documents, threatening conventional assessments and academic integrity. We present DoPE (Decoy-Oriented Perturbation Encapsulation), a document-layer defense framework that embeds semantic decoys into PDF/HTML assessments to exploit render-parse discrepancies in MLLM pipelines. By instrumenting exams at authoring time, DoPE provides model-agnostic prevention (stop or confound automated solving) and detection (flag blind AI reliance) without relying on conventional one-shot classifiers. We formalize prevention and detection tasks, and introduce FewSoRT-Q, an LLM-guided pipeline that generates question-level semantic decoys and FewSoRT-D to encapsulate them into watermarked documents. We evaluate on Integrity-Bench, a novel benchmark of 1826 exams (PDF+HTML) derived from public QA datasets and OpenCourseWare. Against black-box MLLMs from OpenAI and Anthropic, DoPE yields strong empirical gains: a 91.4% detection rate at an 8.7% false-positive rate using an LLM-as-Judge verifier, and prevents successful completion or induces decoy-aligned failures in 96.3% of attempts. We release Integrity-Bench, our toolkit, and evaluation code to enable reproducible study of document-layer defenses for academic integrity.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、試験文書を直接消費し、従来の評価や学術的整合性を脅かす。
本稿では,DPE(Decoy-Oriented Perturbation Encapsulation)について述べる。DPE(Decoy-Oriented Perturbation Encapsulation)は,セマンティックデコイをPDF/HTMLアセスメントに埋め込んで,MLLMパイプラインにおけるレンダリングパース不一致を利用した文書層防御フレームワークである。
試験を認可時に実施することにより、DoPEは従来のワンショット分類器に頼ることなく、モデル非依存の予防(ストップまたはコンファウンド自動解決)と検出(フラッグブラインドAI依存)を提供する。
我々は,予防と検出のタスクを形式化し,疑問レベルのセマンティックデコイを生成するLLM誘導パイプラインFewSoRT-Qと,それらを透かし文書にカプセル化するFewSoRT-Dを紹介する。
公開QAデータセットとOpenCourseWareから得られた1826の試験(PDF+HTML)の新たなベンチマークであるIntegity-Benchを評価する。
OpenAI と Anthropic のブラックボックス MLLM に対して、DoPE は強い経験的利得を得る: LLM-as-Judge 検証器を用いて 8.7% の偽陽性率での 91.4% の検出率であり、96.3% の試行で成功またはデコイ整列失敗を誘発する。
学術的整合性のための文書層防御の再現可能な研究を可能にするためのツールキットであるIntegrationity-Benchと評価コードをリリースする。
関連論文リスト
- Integrity Shield A System for Ethical AI Use & Authorship Transparency in Assessments [10.808479217513181]
項目レベルの透かしをPDFに埋め込んだ文書層透かしシステムであるIntegity Shieldを提案する。
これらの透かしは、MLLMが保護された試験用PDFに応答するのを一貫して防ぎ、安定したアイテムレベルの署名をエンコードする。
私たちのデモでは、インストラクターが試験をアップロードし、透かしの振る舞いをプレビューし、AIのパフォーマンスと作者の証拠を検査するインタラクティブなインターフェースを披露しています。
論文 参考訳(メタデータ) (2026-01-16T08:44:58Z) - BadScientist: Can a Research Agent Write Convincing but Unsound Papers that Fool LLM Reviewers? [21.78901120638025]
製造指向の紙生成エージェントがマルチモデルLCMレビューシステムを欺くことができるかどうかを考察する。
我々のジェネレータは、実際の実験を必要としないプレゼンテーション操作戦略を採用している。
健全な集約数学にもかかわらず、整合性検査は体系的に失敗する。
論文 参考訳(メタデータ) (2025-10-20T18:37:11Z) - MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - The Feasibility of Topic-Based Watermarking on Academic Peer Reviews [46.71493672772134]
大規模言語モデル(LLM)に対する話題ベース透かし(TBW)の評価を行った。
以上の結果から,TBWは非透かし出力と比較してレビュー品質を保ちつつ,パラフレージングに基づく回避を強く示している。
論文 参考訳(メタデータ) (2025-05-27T18:09:27Z) - Helping Large Language Models Protect Themselves: An Enhanced Filtering and Summarization System [2.0257616108612373]
大規模言語モデルは、敵の攻撃、操作プロンプト、悪意のある入力のエンコードに弱い。
本研究は,LSMが敵対的あるいは悪意的な入力を自力で認識し,フィルタリングし,防御することのできる,ユニークな防御パラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-02T14:42:26Z) - Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。
LLMは現実世界の脆弱性を検出するのに本当に効果的か?
本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文 参考訳(メタデータ) (2025-04-18T05:32:47Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。