論文の概要: Integrity Shield A System for Ethical AI Use & Authorship Transparency in Assessments
- arxiv url: http://arxiv.org/abs/2601.11093v1
- Date: Fri, 16 Jan 2026 08:44:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.415854
- Title: Integrity Shield A System for Ethical AI Use & Authorship Transparency in Assessments
- Title(参考訳): 評価における倫理的AI利用と権威の透明性のための統合シールドシステム
- Authors: Ashish Raj Shekhar, Shiven Agarwal, Priyanuj Bordoloi, Yash Shah, Tejas Anvekar, Vivek Gupta,
- Abstract要約: 項目レベルの透かしをPDFに埋め込んだ文書層透かしシステムであるIntegity Shieldを提案する。
これらの透かしは、MLLMが保護された試験用PDFに応答するのを一貫して防ぎ、安定したアイテムレベルの署名をエンコードする。
私たちのデモでは、インストラクターが試験をアップロードし、透かしの振る舞いをプレビューし、AIのパフォーマンスと作者の証拠を検査するインタラクティブなインターフェースを披露しています。
- 参考スコア(独自算出の注目度): 10.808479217513181
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) can now solve entire exams directly from uploaded PDF assessments, raising urgent concerns about academic integrity and the reliability of grades and credentials. Existing watermarking techniques either operate at the token level or assume control over the model's decoding process, making them ineffective when students query proprietary black-box systems with instructor-provided documents. We present Integrity Shield, a document-layer watermarking system that embeds schema-aware, item-level watermarks into assessment PDFs while keeping their human-visible appearance unchanged. These watermarks consistently prevent MLLMs from answering shielded exam PDFs and encode stable, item-level signatures that can be reliably recovered from model or student responses. Across 30 exams spanning STEM, humanities, and medical reasoning, Integrity Shield achieves exceptionally high prevention (91-94% exam-level blocking) and strong detection reliability (89-93% signature retrieval) across four commercial MLLMs. Our demo showcases an interactive interface where instructors upload an exam, preview watermark behavior, and inspect pre/post AI performance & authorship evidence.
- Abstract(参考訳): 大規模言語モデル(LLM)は、アップロードされたPDFアセスメントから直接試験全体を解決し、学術的完全性や成績や資格情報の信頼性に関する緊急の懸念を提起する。
既存の透かし技術はトークンレベルで動作するか、モデルの復号処理を制御するかのいずれかであり、学生がインストラクターが提供する文書で独自のブラックボックスシステムに問い合わせたときは効果がない。
Integity Shieldは、スキーマ対応のアイテムレベルの透かしをPDFに埋め込んだ文書層透かしシステムである。
これらの透かしは、MLLMが保護された試験用PDFに応答するのを一貫して防ぎ、モデルや学生の反応から確実に回収できる安定したアイテムレベルのシグネチャをエンコードする。
STEM、人文科学、医学的推論にまたがる30の試験において、Integity Shieldは4つの商用MLLMで非常に高い予防(91-94%の試験レベルのブロッキング)と強力な検出信頼性(89-93%の署名検索)を達成する。
私たちのデモでは、インストラクターが試験をアップロードし、透かしの振る舞いをプレビューし、AIのパフォーマンスと作者の証拠を検査するインタラクティブなインターフェースを披露しています。
関連論文リスト
- A Visual Semantic Adaptive Watermark grounded by Prefix-Tuning for Large Vision-Language Model [48.79816664229285]
Visual Semantic Adaptive Watermark (VISA-Mark)は、視覚の忠実さを厳密に保ちながら検出可能な信号を埋め込む新しいフレームワークである。
提案手法では,動的ビジュアルエビデンス重みを抽出するために,軽量で効率的に訓練されたプレフィックスチューナーを用いる。
実験の結果、VISA-Markは視覚的一貫性が7.8%向上した従来の手法よりも優れていたことが確認された。
論文 参考訳(メタデータ) (2026-01-12T07:55:13Z) - SEAL: Subspace-Anchored Watermarks for LLM Ownership [12.022506016268112]
大規模言語モデルのためのサブスペース型透かしフレームワークSEALを提案する。
SEALはモデルの潜在表現空間に直接マルチビットシグネチャを埋め込んで、ホワイトボックスとブラックボックスの検証シナリオをサポートする。
我々は、SEALの優れた効率、忠実性、効率、堅牢性を示すために、複数のベンチマークデータセットと6つの著名なLCMに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2025-11-14T14:44:11Z) - SWAP: Towards Copyright Auditing of Soft Prompts via Sequential Watermarking [58.475471437150674]
ソフトプロンプト(SWAP)のための逐次透かしを提案する。
SWAPは、特定のディフェンダー指定のアウト・オブ・ディストリビューション・クラスを通じて、透かしを符号化する。
11のデータセットの実験では、SWAPの有効性、無害性、および潜在的適応攻撃に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-11-05T13:48:48Z) - SynthID-Image: Image watermarking at internet scale [55.5714762895087]
本稿では,AI生成画像の透かしを行うディープラーニングシステムであるSynthID-Imageを紹介する。
本稿では,このようなシステムをインターネット規模で展開する上での技術的デシラタ,脅威モデル,実践的課題について述べる。
論文 参考訳(メタデータ) (2025-10-10T11:03:31Z) - LLM Watermark Evasion via Bias Inversion [24.543675977310357]
本稿では,理論的動機付けとモデルに依存しないemphBias-Inversion Rewriting Attack (BIRA)を提案する。
BIRAは、下層の透かし方式を知らずに書き直し中に、おそらく透かしのトークンのロジットを抑えることで透かし信号を弱める。
論文 参考訳(メタデータ) (2025-09-27T00:24:57Z) - In-Context Watermarks for Large Language Models [71.29952527565749]
In-Context Watermarking (ICW)は、インシデントエンジニアリングのみで生成されたテキストに透かしを埋め込む。
粒度の異なる4つのICW戦略について検討した。
本実験は,モデルに依存しない実用的な透かし手法としてのICWの実現可能性を検証するものである。
論文 参考訳(メタデータ) (2025-05-22T17:24:51Z) - ClearMark: Intuitive and Robust Model Watermarking via Transposed Model
Training [50.77001916246691]
本稿では,人間の直感的な評価を目的とした最初のDNN透かし手法であるClearMarkを紹介する。
ClearMarkは目に見える透かしを埋め込んで、厳格な値閾値なしで人間の意思決定を可能にする。
8,544ビットの透かし容量は、現存する最強の作品に匹敵する。
論文 参考訳(メタデータ) (2023-10-25T08:16:55Z) - Don't Forget to Sign the Gradients! [60.98885980669777]
GradSignsはディープニューラルネットワーク(DNN)のための新しい透かしフレームワーク
深部ニューラルネットワーク(DNN)のための新しい透かしフレームワークであるGradSignsを紹介します。
論文 参考訳(メタデータ) (2021-03-05T14:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。