論文の概要: How does Watermarking Affect Visual Language Models in Document Understanding?
- arxiv url: http://arxiv.org/abs/2504.01048v1
- Date: Tue, 01 Apr 2025 05:57:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:24:55.138287
- Title: How does Watermarking Affect Visual Language Models in Document Understanding?
- Title(参考訳): 文書理解における透かしは視覚言語モデルにどのように影響するか?
- Authors: Chunxue Xu, Yiwei Wang, Bryan Hooi, Yujun Cai, Songze Li,
- Abstract要約: 視覚言語モデル(VLM)の性能に及ぼす透かしの影響を調べるための新しい評価フレームワークを提案する。
実験の結果,VLMの性能は透かしによって著しく損なわれ,性能低下率は最大36%に達することがわかった。
本研究は、文書理解のためのVLMの展開における重要な課題を強調し、透かし付き文書に頑健な推論機構を構築するための洞察を提供する。
- 参考スコア(独自算出の注目度): 42.77548895536609
- License:
- Abstract: Visual Language Models (VLMs) have become foundational models for document understanding tasks, widely used in the processing of complex multimodal documents across domains such as finance, law, and academia. However, documents often contain noise-like information, such as watermarks, which inevitably leads us to inquire: \emph{Do watermarks degrade the performance of VLMs in document understanding?} To address this, we propose a novel evaluation framework to investigate the effect of visible watermarks on VLMs performance. We takes into account various factors, including different types of document data, the positions of watermarks within documents and variations in watermark content. Our experimental results reveal that VLMs performance can be significantly compromised by watermarks, with performance drop rates reaching up to 36\%. We discover that \emph{scattered} watermarks cause stronger interference than centralized ones, and that \emph{semantic contents} in watermarks creates greater disruption than simple visual occlusion. Through attention mechanism analysis and embedding similarity examination, we find that the performance drops are mainly attributed to that watermarks 1) force widespread attention redistribution, and 2) alter semantic representation in the embedding space. Our research not only highlights significant challenges in deploying VLMs for document understanding, but also provides insights towards developing robust inference mechanisms on watermarked documents.
- Abstract(参考訳): 視覚言語モデル(VLM)は文書理解タスクの基礎モデルとなり、財務、法学、学術などの領域にわたる複雑なマルチモーダル文書の処理に広く利用されている。
しかし、文書にはしばしば、透かしのようなノイズのような情報が含まれており、必然的に問い合わせに繋がる: \emph{Do 透かしは、文書理解においてVLMのパフォーマンスを劣化させるか?
そこで本研究では,視覚的透かしがVLMの性能に与える影響を調べるための新しい評価枠組みを提案する。
文書の種類、文書内の透かしの位置、透かしの内容の変化など、さまざまな要因を考慮に入れている。
実験の結果,VLMの性能は透かしによって著しく損なわれ,性能低下率は最大36.5%に達することがわかった。
電子透かしの電子透かしは集中的な電子透かしよりも強い干渉を引き起こし、電子透かしの電子透かしの電子透かしは、単純な視覚オクルージョンよりも大きな破壊を引き起こす。
注意機構解析と埋め込み類似性検査により,その透かしによる性能低下が主な原因であることが判明した。
1)広範に注意を喚起し、
2)埋め込み空間における意味表現の変更。
我々の研究は、文書理解のためのVLMの展開における重要な課題だけでなく、透かしのある文書に頑健な推論機構を構築するための洞察も提供する。
関連論文リスト
- DERMARK: A Dynamic, Efficient and Robust Multi-bit Watermark for Large Language Models [18.023143082876015]
動的,効率的,堅牢なマルチビット透かし方式であるDERMARKを提案する。
DERMARKはテキストを各ビットの埋め込みごとに異なる長さのセグメントに分割し、テキストの容量に適応的に適合する。
これは、透かし抽出損失を最小限に抑えて、テキスト編集に対して無視できるオーバーヘッドと堅牢な性能で実現される。
論文 参考訳(メタデータ) (2025-02-04T11:23:49Z) - On the Coexistence and Ensembling of Watermarks [93.15379331904602]
様々なオープンソースの透かしは、画像の品質と復号性に小さな影響しか与えない。
我々は、アンサンブルがメッセージ全体のキャパシティを向上し、基本モデルを再トレーニングすることなく、キャパシティ、正確性、堅牢性、画像品質の新たなトレードオフを可能にすることを示す。
論文 参考訳(メタデータ) (2025-01-29T00:37:06Z) - Efficiently Identifying Watermarked Segments in Mixed-Source Texts [35.437251393372954]
部分透かし検出のための2つの新しい手法を提案する。
まず,長文に透かしセグメントが存在するかどうかを判定するための幾何被覆検出フレームワークを開発する。
第2に,テキスト内の透かしセグメントの正確な位置を特定できる適応型オンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T16:58:41Z) - Can Watermarked LLMs be Identified by Users via Crafted Prompts? [55.460327393792156]
この研究は、透かし付き大言語モデル(LLM)の非受容性を初めて研究したものである。
我々は、よく設計されたプロンプトを通して透かしを検出する、Water-Probeと呼ばれる識別アルゴリズムを設計する。
実験の結果、ほとんどの主流の透かしアルゴリズムは、よく設計されたプロンプトと容易に識別できることがわかった。
論文 参考訳(メタデータ) (2024-10-04T06:01:27Z) - Watermark Text Pattern Spotting in Document Images [3.6298655794854464]
書字は様々なフォントやサイズ、形式に分類できるため、一般的な認識は非常に難しい問題である。
Wrenderを用いて生成された65,447個のデータサンプルを含む新しいベンチマーク(K-Watermark)を提案する。
人間のレーダを用いた妥当性調査では、予め作成された透かし文書に対する信頼度スコアが0.11である。
論文 参考訳(メタデータ) (2024-01-10T14:02:45Z) - New Evaluation Metrics Capture Quality Degradation due to LLM
Watermarking [28.53032132891346]
大規模言語モデル(LLM)のための透かしアルゴリズム評価のための2つの新しい使いやすさ手法を提案する。
種々のデータセットを用いて実験を行った結果,従来の透かし法は単純な分類器でも検出可能であることがわかった。
以上の結果から,透かしの堅牢性とテキスト品質のトレードオフを浮き彫りにし,透かしの質を評価する上で,より情報的な指標を持つことの重要性を強調した。
論文 参考訳(メタデータ) (2023-12-04T22:56:31Z) - WatME: Towards Lossless Watermarking Through Lexical Redundancy [58.61972059246715]
本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。
透かしをシームレスに統合するための相互排他型透かし(WatME)を導入する。
論文 参考訳(メタデータ) (2023-11-16T11:58:31Z) - Unbiased Watermark for Large Language Models [67.43415395591221]
本研究では, モデル生成出力の品質に及ぼす透かしの影響について検討した。
出力確率分布に影響を与えることなく、透かしを統合することができる。
ウォーターマークの存在は、下流タスクにおけるモデルの性能を損なうものではない。
論文 参考訳(メタデータ) (2023-09-22T12:46:38Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。