Fugu-MT 論文翻訳(概要): Privacy-Aware Document Visual Question Answering

論文の概要: Privacy-Aware Document Visual Question Answering

arxiv url: http://arxiv.org/abs/2312.10108v1
Date: Fri, 15 Dec 2023 06:30:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-19 18:35:42.639504
Title: Privacy-Aware Document Visual Question Answering
Title（参考訳）: プライバシーに配慮したビジュアル質問応答
Authors: Rub\`en Tito, Khanh Nguyen, Marlon Tobaben, Raouf Kerkouche, Mohamed Ali Souibgui, Kangsoo Jung, Lei Kang, Ernest Valveny, Antti Honkela, Mario Fritz, Dimosthenis Karatzas
Abstract要約: Document Visual Question Answering (DocVQA)は、文書理解の急速に成長している分野である。ドキュメントには機密情報や著作権情報が含まれているにもかかわらず、現在のDocVQAメソッドはいずれも強力なプライバシー保証を提供していない。 DocVQAで使用されるマルチモーダルLLMモデルの現状において、プライバシー問題を強調し、可能なソリューションを探究する。
参考スコア（独自算出の注目度）: 47.89754310347398
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Document Visual Question Answering (DocVQA) is a fast growing branch of document understanding. Despite the fact that documents contain sensitive or copyrighted information, none of the current DocVQA methods offers strong privacy guarantees. In this work, we explore privacy in the domain of DocVQA for the first time. We highlight privacy issues in state of the art multi-modal LLM models used for DocVQA, and explore possible solutions. Specifically, we focus on the invoice processing use case as a realistic, widely used scenario for document understanding, and propose a large scale DocVQA dataset comprising invoice documents and associated questions and answers. We employ a federated learning scheme, that reflects the real-life distribution of documents in different businesses, and we explore the use case where the ID of the invoice issuer is the sensitive information to be protected. We demonstrate that non-private models tend to memorise, behaviour that can lead to exposing private information. We then evaluate baseline training schemes employing federated learning and differential privacy in this multi-modal scenario, where the sensitive information might be exposed through any of the two input modalities: vision (document image) or language (OCR tokens). Finally, we design an attack exploiting the memorisation effect of the model, and demonstrate its effectiveness in probing different DocVQA models.
Abstract（参考訳）: Document Visual Question Answering (DocVQA)は、文書理解の急速に成長している分野である。ドキュメントには機密情報や著作権情報が含まれているにもかかわらず、現在のDocVQAメソッドはいずれも強力なプライバシー保証を提供していない。本研究では,DocVQAのドメインにおけるプライバシを初めて検討する。 DocVQAで使用されるマルチモーダルLLMモデルの現状におけるプライバシー問題を強調し、可能な解決策を探る。具体的には、請求書処理のユースケースを文書理解の現実的で広く利用されているシナリオとして取り上げ、請求書文書と関連する質問と回答からなる大規模DocVQAデータセットを提案する。我々は,異なる企業における文書の実生活分布を反映した連合学習方式を採用し,請求書発行者のidが保護すべき機密情報である場合のユースケースを考察する。プライベートでないモデルは、プライベートな情報を公開することにつながる振る舞いを記憶する傾向があることを実証する。このマルチモーダルシナリオでは,視覚(文書画像)や言語(OCRトークン)という2つの入力モードのいずれかを通じて,センシティブな情報が露出する可能性がある。最後に,モデルの記憶効果を生かした攻撃をデザインし,docvqaモデルの検証においてその効果を示す。

関連論文リスト

DocMIA: Document-Level Membership Inference Attacks against DocVQA Models [52.13818827581981]
DocVQAモデルに特化された2つの新しいメンバーシップ推論攻撃を導入する。提案手法は,さまざまなDocVQAモデルやデータセットに対して,既存の最先端メンバシップ推論よりも優れている。
論文参考訳（メタデータ） (2025-02-06T00:58:21Z)
BoundingDocs: a Unified Dataset for Document Question Answering with Spatial Annotations [2.9798896492745537]
文書質問回答(QA)のための統合データセットを提案する。情報抽出(IE)などの既存の文書AIタスクを質問応答タスクに再構成する。一方、全文書のOCRを公開し、文書画像中の回答の正確な位置をバウンディングボックスとして含む。
論文参考訳（メタデータ） (2025-01-06T21:46:22Z)
DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models [66.91204604417912]
本研究の目的は,LLMの知識を蒸留することにより,小型VDUモデルの一般化性を高めることである。我々は、外部文書知識を統合することでデータ生成プロセスを強化する新しいフレームワーク(DocKD)を提案する。実験の結果,DocKDは高品質な文書アノテーションを生成し,直接知識蒸留手法を超越していることがわかった。
論文参考訳（メタデータ） (2024-10-04T00:53:32Z)
Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文参考訳（メタデータ） (2024-10-03T17:49:09Z)
Extracting Training Data from Document-Based VQA Models [67.1470112451617]
VLM(Vision-Language Models)は、文書ベースの視覚質問回答において顕著な進歩を遂げている(つまり、画像として提供される入力文書の内容に関する問い合わせに応答する)。これらのモデルでは、関連する視覚情報が削除された場合でも、トレーニングサンプルに対する応答を記憶し、それらをリグルジタイズすることができる。これには、トレーニングセットで繰り返し繰り返されるパーソナライズ可能な情報が含まれており、これらのモデルが機密情報を漏らし、したがってプライバシーリスクを引き起こす可能性があることを示している。
論文参考訳（メタデータ） (2024-07-11T17:44:41Z)
Federated Document Visual Question Answering: A Pilot Study [11.157766332838877]
文書は著作権や私的な情報を含む傾向があり、公開を禁止している。本研究では,分散化されたプライベートドキュメントデータに基づく共有モデルの学習方法として,フェデレーション付き学習スキームの利用について検討する。我々は,さまざまなDocVQAデータセットを用いたフェデレーショントレーニングにおいて,事前学習戦略が効果的に学習し,スケールアップ可能であることを示す。
論文参考訳（メタデータ） (2024-05-10T17:53:05Z)
BuDDIE: A Business Document Dataset for Multi-task Information Extraction [18.440587946049845]
BuDDIEは、1,665の現実世界のビジネスドキュメントのマルチタスクデータセットである。当社のデータセットは、米国政府のウェブサイトから公開されているビジネスエンティティドキュメントで構成されています。
論文参考訳（メタデータ） (2024-04-05T10:26:42Z)
Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文参考訳（メタデータ） (2022-12-05T22:14:49Z)
Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。 UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。 UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文参考訳（メタデータ） (2022-04-22T21:47:04Z)
Towards a Multi-modal, Multi-task Learning based Pre-training Framework for Document Representation Learning [5.109216329453963]
本稿では,新しい事前学習タスクとして,文書トピックモデリングと文書シャッフル予測を導入する。本稿では,Longformer ネットワークアーキテクチャをバックボーンとして,複数ページの文書からのマルチモーダル情報をエンド・ツー・エンドで符号化する。
論文参考訳（メタデータ） (2020-09-30T05:39:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。