論文の概要: New Exam Security Questions in the AI Era: Comparing AI-Generated Item Similarity Between Naive and Detail-Guided Prompting Approaches
- arxiv url: http://arxiv.org/abs/2512.23729v1
- Date: Fri, 19 Dec 2025 20:34:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-04 08:45:17.125838
- Title: New Exam Security Questions in the AI Era: Comparing AI-Generated Item Similarity Between Naive and Detail-Guided Prompting Approaches
- Title(参考訳): AI時代の新たなエクササイズセキュリティ問題:AIが生成した項目のナイーブとディテールガイドによるプロンプティングアプローチの比較
- Authors: Ting Wang, Caroline Prendergast, Susan Lottridge,
- Abstract要約: 大規模言語モデル(LLM)は、ドメイン固有の多重選択質問(MCQ)を生成する強力なツールとして登場した。
本研究は, LLM生成物が, 公開資源のみを用いて生成したものと有意に異なるか否かを考察した。
- 参考スコア(独自算出の注目度): 3.628322895108074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have emerged as powerful tools for generating domain-specific multiple-choice questions (MCQs), offering efficiency gains for certification boards but raising new concerns about examination security. This study investigated whether LLM-generated items created with proprietary guidance differ meaningfully from those generated using only publicly available resources. Four representative clinical activities from the American Board of Family Medicine (ABFM) blueprint were mapped to corresponding Entrustable Professional Activities (EPAs), and three LLMs (GPT-4o, Claude 4 Sonnet, Gemini 2.5 Flash) produced items under a naive strategy using only public EPA descriptors, while GPT-4o additionally produced items under a guided strategy that incorporated proprietary blueprints, item-writing guidelines, and exemplar items, yielding 160 total items. Question stems and options were encoded using PubMedBERT and BioBERT, and intra- and inter-strategy cosine similarity coefficients were calculated. Results showed high internal consistency within each prompting strategy, while cross-strategy similarity was lower overall. However, several domain model pairs, particularly in narrowly defined areas such as viral pneumonia and hypertension, exceeded the 0.65 threshold, indicating convergence between naive and guided pipelines. These findings suggest that while proprietary resources impart distinctiveness, LLMs prompted only with public information can still generate items closely resembling guided outputs in constrained clinical domains, thereby heightening risks of item exposure. Safeguarding the integrity of high stakes examinations will require human-first, AI-assisted item development, strict separation of formative and summative item pools, and systematic similarity surveillance to balance innovation with security.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ドメイン固有の多重選択質問(MCQ)を生成する強力なツールとして登場し、認証ボードの効率向上を提供する一方で、試験セキュリティに関する新たな懸念を提起している。
本研究は, LLM生成物が, 公開資源のみを用いて生成したものと有意に異なるか否かを考察した。
アメリカ家族医療委員会(ABFM)のブループリントを対応するEPA(Entrustable Professional Activity)にマッピングし、3つのLCM(GPT-4o, Claude 4 Sonnet, Gemini 2.5 Flash)が公的なEPA記述子のみを用いてナイーブな戦略でアイテムを作成した。
PubMedBERTとBioBERTを用いて質問紙とオプションを符号化し, ストラテジー内およびストラテジー間コサイン類似度係数を算出した。
その結果,各プロンプト戦略の内的整合性は高く,クロスストラテジーの類似性は全体的に低かった。
しかし、特にウイルス性肺炎や高血圧などの狭義の領域では、いくつかのドメインモデルペアが0.65閾値を超え、ナイーブパイプラインとガイドパイプラインの収束を示している。
これらの知見は, 独占的資源が独特性を付与する一方で, 公開情報のみによって誘導されるLCMは, 制約された臨床領域におけるガイド付きアウトプットによく似た項目を生成でき, 項目暴露のリスクを高めることを示唆している。
高利得検査の完全性を保護するためには、人間優先のAI支援アイテム開発、形式的および要約的なアイテムプールの厳格な分離、イノベーションとセキュリティのバランスをとるための体系的な類似性監視が必要である。
関連論文リスト
- Prompt Injection Mitigation with Agentic AI, Nested Learning, and AI Sustainability via Semantic Caching [0.42970700836450487]
本論文は, TIVS (Total Injection Vulnerability Score) を導入した作業を基にしたものである。
HOPEにインスパイアされたNested Learningアーキテクチャにおいて、防御効果が透明性とどのように相互作用するかを調査する。
実験の結果,高いリスクを伴わないセキュアな応答が得られた。
論文 参考訳(メタデータ) (2026-01-19T16:10:11Z) - Generation-Augmented Generation: A Plug-and-Play Framework for Private Knowledge Injection in Large Language Models [48.65910216527897]
GAG(Generation-Augmented Generation)は、プライベートな専門知識を専門的なモダリティとして扱い、コンパクトな表現レベルインターフェースを通じてそれを注入する。
GAGは2つのベンチマークで強力なRAGベースラインよりも15.34%、14.86%の専門性能を向上した。
論文 参考訳(メタデータ) (2026-01-13T04:23:36Z) - DarkPatterns-LLM: A Multi-Layer Benchmark for Detecting Manipulative and Harmful AI Behavior [0.0]
textbfDarkPatterns-LLMは,操作内容の詳細な評価を行うための総合的なベンチマークデータセットと診断フレームワークである。
本フレームワークでは,多階層検出(MGD),多スケールインテント分析(MSIAN),Threat Harmonization Protocol(THP),Deep Contextual Risk Alignment(DCRA)の4層解析パイプラインを実装している。
データセットには、インストラクション-レスポンスペアとエキスパートアノテーションを備えた401の厳密にキュレートされた例が含まれている。
論文 参考訳(メタデータ) (2025-12-27T05:05:46Z) - Understanding Privacy Risks in Code Models Through Training Dynamics: A Causal Approach [58.05800140178267]
コードのための大規模言語モデル(LLM4Code)は、開発者の生産性を大幅に改善しただけでなく、プライバシの懸念も高めた。
LLM4Codeによって学習・リークされる可能性において,異なるPIIタイプが異なるかどうかを検討する。
その結果, 漏洩リスクはPIIタイプによって大きく異なり, トレーニングのダイナミクスと相関していることがわかった。
この研究は、漏洩リスクがタイプ依存であることを示す最初の因果的証拠を提供し、タイプ認識と学習可能性認識の防御を開発するためのガイダンスを提供する。
論文 参考訳(メタデータ) (2025-12-08T18:47:40Z) - RESCUE: Retrieval Augmented Secure Code Generation [5.001448044530164]
2つの重要な革新を伴うセキュアなコード生成のための新しいフレームワークであるRESCUEを提案する。
まず, LLMを用いたクラスタ列化蒸留とプログラムスライシングを組み合わせたハイブリッド知識ベース構築法を提案する。
第2に,構築した知識ベースを上から下へトラバースする階層的多面検索を設計し,階層レベルで複数のセキュリティクリティカルな事実を統合する。
論文 参考訳(メタデータ) (2025-10-21T01:13:03Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - PAD-F: Prior-Aware Debiasing Framework for Long-Tailed X-ray Prohibited Item Detection [56.25222232778367]
実世界の禁止アイテム検出シナリオにおけるオブジェクトクラスの分布は、しばしばはっきりとした長い尾の分布を示す。
本稿では,2つの戦略を取り入れた新しいアプローチであるPAD-F(Presideed-Aware Debiasing Framework)を紹介する。
PAD-Fは複数の一般的な検出器の性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-27T06:13:56Z) - FKA-Owl: Advancing Multimodal Fake News Detection through Knowledge-Augmented LVLMs [48.32113486904612]
本稿では,FKA-Owlを提案する。FKA-Owlは,偽情報を利用した大規模視覚言語モデル(LVLM)の拡張のためのフレームワークである。
パブリックベンチマークの実験では、FKA-Owlは従来の手法よりも優れたクロスドメイン性能を達成している。
論文 参考訳(メタデータ) (2024-03-04T12:35:09Z) - Large-Scale Text Analysis Using Generative Language Models: A Case Study
in Discovering Public Value Expressions in AI Patents [2.246222223318928]
本稿では,生成言語モデル(GPT-4)を用いて,大規模テキスト解析のためのラベルと論理式を生成する手法を提案する。
InnovationQ+に送信された高度なBooleanクエリを用いて、154,934件の特許文書からなるデータベースを収集する。
我々は、これらのAI特許文中の公開価値表現を識別し、ラベル付けするためのフレームワークを設計する。
論文 参考訳(メタデータ) (2023-05-17T17:18:26Z) - Is Vertical Logistic Regression Privacy-Preserving? A Comprehensive
Privacy Analysis and Beyond [57.10914865054868]
垂直ロジスティック回帰(VLR)をミニバッチ降下勾配で訓練した。
我々は、オープンソースのフェデレーション学習フレームワークのクラスにおいて、VLRの包括的で厳密なプライバシー分析を提供する。
論文 参考訳(メタデータ) (2022-07-19T05:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。