論文の概要: Doc-PP: Document Policy Preservation Benchmark for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.03926v1
- Date: Wed, 07 Jan 2026 13:45:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.572828
- Title: Doc-PP: Document Policy Preservation Benchmark for Large Vision-Language Models
- Title(参考訳): Doc-PP:大規模視線モデルのための文書ポリシー保存ベンチマーク
- Authors: Haeun Jang, Hwan Chang, Hwanhee Lee,
- Abstract要約: 我々は、厳密な非開示ポリシーの下で、異質な視覚的およびテキスト的要素の推論を必要とする実世界のレポートから構築された新しいベンチマークDoc-PPを紹介する。
モデルでは、複雑な合成によって答えが推測されなければならない場合や、モダリティにまたがって集約された場合、機密情報を頻繁にリークする。
政策検証から推論を分離する構造推論フレームワークであるDVAを提案する。
- 参考スコア(独自算出の注目度): 13.70855540464427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The deployment of Large Vision-Language Models (LVLMs) for real-world document question answering is often constrained by dynamic, user-defined policies that dictate information disclosure based on context. While ensuring adherence to these explicit constraints is critical, existing safety research primarily focuses on implicit social norms or text-only settings, overlooking the complexities of multimodal documents. In this paper, we introduce Doc-PP (Document Policy Preservation Benchmark), a novel benchmark constructed from real-world reports requiring reasoning across heterogeneous visual and textual elements under strict non-disclosure policies. Our evaluation highlights a systemic Reasoning-Induced Safety Gap: models frequently leak sensitive information when answers must be inferred through complex synthesis or aggregated across modalities, effectively circumventing existing safety constraints. Furthermore, we identify that providing extracted text improves perception but inadvertently facilitates leakage. To address these vulnerabilities, we propose DVA (Decompose-Verify-Aggregation), a structural inference framework that decouples reasoning from policy verification. Experimental results demonstrate that DVA significantly outperforms standard prompting defenses, offering a robust baseline for policy-compliant document understanding
- Abstract(参考訳): リアルタイム文書質問応答のためのLVLM(Large Vision-Language Models)の展開は、コンテキストに基づいて情報開示を規定する動的なユーザ定義ポリシーによって制約されることが多い。
これらの明示的な制約の遵守を保証することは重要であるが、既存の安全研究は主に暗黙の社会的規範やテキストのみの設定に焦点を当てており、マルチモーダル文書の複雑さを見下ろしている。
本稿では,厳密な非開示ポリシーの下での異質な視覚的およびテキスト的要素間の推論を必要とする実世界のレポートから構築された新しいベンチマークであるDoc-PP(Document Policy Preservation Benchmark)を紹介する。
モデルは、複雑な合成によって答えが推論されるか、あるいはモダリティを越えて集約される必要がある場合に、しばしば機密情報を漏洩し、既存の安全制約を効果的に回避する。
さらに,抽出したテキストを提供することで知覚が向上するが,不注意にも漏洩を促進する。
これらの脆弱性に対処するため、政策検証から推論を分離する構造的推論フレームワークであるDVA(Decompose-Verify-Aggregation)を提案する。
実験結果によると、DVAは標準的防御力よりも優れており、ポリシーに準拠した文書理解のための堅牢なベースラインを提供する。
関連論文リスト
- DeepSynth-Eval: Objectively Evaluating Information Consolidation in Deep Survey Writing [53.85037373860246]
本稿では,情報統合能力を客観的に評価するためのベンチマークであるDeep Synth-Evalを紹介する。
一般チェックリスト(実例)と制約チェックリスト(構造体)を用いたきめ細かい評価プロトコルを提案する。
その結果,エージェント型プラン・アンド・ライトは単ターン生成よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-01-07T03:07:52Z) - Grounding Long-Context Reasoning with Contextual Normalization for Retrieval-Augmented Generation [57.97548022208733]
キー値抽出における表面的選択が精度と安定性のシフトを引き起こすことを示す。
生成前の文脈表現を適応的に標準化する戦略であるコンテキスト正規化を導入する。
論文 参考訳(メタデータ) (2025-10-15T06:28:25Z) - Towards Reliable Retrieval in RAG Systems for Large Legal Datasets [6.376251215279889]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)における幻覚を緩和するための有望なアプローチである
これは、構造的に類似したドキュメントの大規模なデータベースが、しばしば検索システムに障害を引き起こす、法的領域において特に困難である。
文書レベルの合成要約で各テキストチャンクを拡大する,単純で効率的な手法について検討する。
我々の研究は、この実用的でスケーラブルで、容易に統合可能な手法が、大規模法的文書データセットに適用した場合、RAGシステムの信頼性を高める証拠を提供する。
論文 参考訳(メタデータ) (2025-10-08T13:22:20Z) - Explainable Compliance Detection with Multi-Hop Natural Language Inference on Assurance Case Structure [1.5653612447564105]
自然言語推論(NLI)に基づくコンプライアンス検出手法を提案する。
保証ケースのクレーム・アビデンス・エビデンス構造をマルチホップ推論として定式化し、説明可能かつトレーサブルなコンプライアンス検出を行う。
本結果は,規制コンプライアンスプロセスの自動化におけるNLIベースのアプローチの可能性を強調した。
論文 参考訳(メタデータ) (2025-06-10T11:56:06Z) - Keep Security! Benchmarking Security Policy Preservation in Large Language Model Contexts Against Indirect Attacks in Question Answering [15.506092447902931]
大規模言語モデル(LLM)は、企業や政府のような機密性の高いドメインにますますデプロイされている。
我々は,質問応答における文脈的非開示ポリシーに対するLCMの適合性を評価する,新しい大規模ベンチマークデータセットであるCoPrivaを紹介した。
私たちはベンチマークで10個のLSMを評価し、重大な脆弱性を明らかにします。
論文 参考訳(メタデータ) (2025-05-21T17:58:11Z) - Advancing Neural Network Verification through Hierarchical Safety Abstract Interpretation [52.626086874715284]
我々は、安全でない出力の階層構造を検証する抽象的DNN検証と呼ばれる新しい問題定式化を導入する。
出力到達可能な集合に関する抽象的解釈と推論を活用することにより,形式的検証プロセスにおいて,複数の安全性レベルを評価することができる。
我々の貢献には、新しい抽象的安全性の定式化と既存のアプローチとの関係を理論的に探求することが含まれる。
論文 参考訳(メタデータ) (2025-05-08T13:29:46Z) - Few-shot Policy (de)composition in Conversational Question Answering [54.259440408606515]
本稿では,大規模言語モデル(LLM)を用いて数ショット設定でポリシーコンプライアンスを検出するニューラルシンボリックフレームワークを提案する。
提案手法は,回答すべきサブクエストを抽出し,文脈情報から真理値を割り当て,与えられたポリシーから論理文の集合を明示的に生成することで,政策コンプライアンスに関する会話に対して健全な理由を示す。
本手法は,PCDおよび会話機械読解ベンチマークであるShARCに適用し,タスク固有の微調整を伴わずに競合性能を示す。
論文 参考訳(メタデータ) (2025-01-20T08:40:15Z) - Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。
Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文 参考訳(メタデータ) (2024-09-05T09:10:38Z) - DePrompt: Desensitization and Evaluation of Personal Identifiable Information in Large Language Model Prompts [11.883785681042593]
DePromptは、プロンプトのための脱感作保護および有効性評価フレームワークである。
我々は、コンテキスト属性を統合し、プライバシタイプを定義し、高精度なPIIエンティティ識別を実現する。
私たちのフレームワークはプロンプトに適応可能で、テキストのユーザビリティに依存したシナリオに拡張できます。
論文 参考訳(メタデータ) (2024-08-16T02:38:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。