論文の概要: Learning the Legibility of Visual Text Perturbations
- arxiv url: http://arxiv.org/abs/2303.05077v1
- Date: Thu, 9 Mar 2023 07:22:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 15:55:15.999372
- Title: Learning the Legibility of Visual Text Perturbations
- Title(参考訳): 視覚テキストの摂動の正当性を学ぶ
- Authors: Dev Seth, Rickard Stureborg, Danish Pruthi and Bhuwan Dhingra
- Abstract要約: NLPの敵対的攻撃は視覚的に類似した文字列を生成し、人間には可視であるが、モデル性能は劣化する。
データセットは、視覚的に摂動されたテキストの可視性を含む人間のアノテーション付きデータセットである。
入力が妥当かどうかを予測するために最大0.91ドルのF1と、2つの与えられた摂動のうちどれがより妥当かを予測するために0.86ドルの精度を達成できるテキストベースモデルと視覚ベースのモデルを構築した。
- 参考スコア(独自算出の注目度): 18.975457219666556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many adversarial attacks in NLP perturb inputs to produce visually similar
strings ('ergo' $\rightarrow$ '$\epsilon$rgo') which are legible to humans but
degrade model performance. Although preserving legibility is a necessary
condition for text perturbation, little work has been done to systematically
characterize it; instead, legibility is typically loosely enforced via
intuitions around the nature and extent of perturbations. Particularly, it is
unclear to what extent can inputs be perturbed while preserving legibility, or
how to quantify the legibility of a perturbed string. In this work, we address
this gap by learning models that predict the legibility of a perturbed string,
and rank candidate perturbations based on their legibility. To do so, we
collect and release \dataset, a human-annotated dataset comprising the
legibility of visually perturbed text. Using this dataset, we build both text-
and vision-based models which achieve up to $0.91$ F1 score in predicting
whether an input is legible, and an accuracy of $0.86$ in predicting which of
two given perturbations is more legible. Additionally, we discover that legible
perturbations from the \dataset dataset are more effective at lowering the
performance of NLP models than best-known attack strategies, suggesting that
current models may be vulnerable to a broad range of perturbations beyond what
is captured by existing visual attacks. Data, code, and models are available at
https://github.com/dvsth/learning-legibility-2023.
- Abstract(参考訳): NLPパーターブの多くの敵攻撃は、視覚的に類似した文字列('ergo' $\rightarrow$ '$\epsilon$rgo')を生成するために入力される。
正当性を維持することはテキストの摂動に必要条件であるが、体系的な特徴付けのためにはほとんど行われておらず、代わりに摂動の性質と範囲に関する直観によって適性は緩やかに強制される。
特に、可視性を保ちながらどの程度入力が摂動できるのか、あるいは摂動弦の可視性を定量化する方法は不明確である。
本研究では,摂動文字列の正当性を予測する学習モデルと,その正当性に基づいたランク候補摂動により,このギャップに対処する。
そこで我々は、視覚的摂動テキストの可視性を含む人称注釈付きデータセットである \dataset を収集、リリースする。
このデータセットを用いて、入力が正当かどうかを予測するために最大0.91ドルF1スコアを得るテキストと視覚に基づくモデルと、与えられた2つの摂動のどちらがより正当かを予測する精度0.86ドルのモデルを構築する。
さらに, 従来の攻撃戦略よりもNLPモデルの性能低下に有効であることが示唆され, 現在のモデルでは, 既存の視覚的攻撃によって捉えられる範囲を超えて, 幅広い摂動に対して脆弱である可能性が示唆された。
データ、コード、モデルはhttps://github.com/dvsth/learning-legibility-2023で入手できる。
関連論文リスト
- Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing [71.29488677105127]
既存のシーンテキスト認識(STR)手法は、特に芸術的で歪んだ文字に対して、挑戦的なテキストを認識するのに苦労している。
人的コストを伴わずに、合成データと実際のラベルなしデータを活用して、対照的な学習ベースのSTRフレームワークを提案する。
本手法は,共通ベンチマークとUnion14M-Benchmarkで平均精度94.7%,70.9%のSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-11-23T15:24:47Z) - Vision-language Assisted Attribute Learning [53.60196963381315]
大規模な属性ラベリングは通常不完全で部分的である。
既存の属性学習手法は、欠落したラベルを否定的な扱いをすることが多い。
利用可能な視覚言語知識を活用して、モデル学習の強化に欠落しているラベルを明確に明らかにする。
論文 参考訳(メタデータ) (2023-12-12T06:45:19Z) - Contrastive Error Attribution for Finetuned Language Models [35.80256755393739]
ノイズと誤記のデータは、自然言語生成(NLG)タスクにおける幻覚と不誠実なアウトプットの中核的な原因である。
望ましくないアウトプットにつながる低品質のトレーニングインスタンスを特定し、削除するフレームワークを導入します。
本研究では、勾配に基づく影響尺度のような既存の誤差追跡手法は、忠実度誤差を検出するために確実に機能しないことを示す。
論文 参考訳(メタデータ) (2022-12-21T02:28:07Z) - Mutual Information Alleviates Hallucinations in Abstractive
Summarization [73.48162198041884]
モデルが生成中の幻覚コンテンツにより多くの確率を割り当てる可能性が著しく高いという単純な基準を見いだす。
この発見は幻覚の潜在的な説明を提供する:モデルは、継続について不確実な場合には、高い限界確率のテキストを好むことをデフォルトとする。
そこで本研究では,ターゲットトークンの正当性ではなく,ソースとターゲットトークンのポイントワイドな相互情報の最適化に切り替える復号手法を提案する。
論文 参考訳(メタデータ) (2022-10-24T13:30:54Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z) - On Sensitivity of Deep Learning Based Text Classification Algorithms to
Practical Input Perturbations [0.0]
深層学習に基づくテキスト分類モデルの性能に及ぼす系統的な実践的摂動の影響を評価する。
摂動は、句読や停止語のような望ましくないトークンの追加と削除によって引き起こされる。
BERTを含むこれらの深層学習アプローチは、4つの標準ベンチマークデータセットにおいて、そのような正当な入力摂動に敏感であることを示す。
論文 参考訳(メタデータ) (2022-01-02T08:33:49Z) - Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。
また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文 参考訳(メタデータ) (2020-11-05T00:18:53Z) - Word Shape Matters: Robust Machine Translation with Visual Embedding [78.96234298075389]
文字レベルNLPモデルの入力シンボルを新たに符号化する。
文字が印刷されたときの画像を通して各文字の形状をエンコードする。
我々はこの新たな戦略を視覚的埋め込みと呼び、NLPモデルの堅牢性を向上させることが期待されている。
論文 参考訳(メタデータ) (2020-10-20T04:08:03Z) - CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial
Text Generation [20.27052525082402]
本稿では,制御可能な属性による逆テキストを生成する制御付き逆テキスト生成(CAT-Gen)モデルを提案する。
実世界のNLPデータセットを用いた実験により,本手法はより多種多様な逆数文を生成することができることが示された。
論文 参考訳(メタデータ) (2020-10-05T21:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。