Fugu-MT 論文翻訳(概要): Enhancing Robustness of Autoregressive Language Models against Orthographic Attacks via Pixel-based Approach

論文の概要: Enhancing Robustness of Autoregressive Language Models against Orthographic Attacks via Pixel-based Approach

arxiv url: http://arxiv.org/abs/2508.21206v1
Date: Thu, 28 Aug 2025 20:48:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-01 19:45:10.873837
Title: Enhancing Robustness of Autoregressive Language Models against Orthographic Attacks via Pixel-based Approach
Title（参考訳）: 自動回帰言語モデルのPixel-based Approachによるオーソグラフィー攻撃に対するロバスト性向上
Authors: Han Yang, Jian Lan, Yihong Liu, Hinrich Schütze, Thomas Seidl,
Abstract要約: 自己回帰言語モデルは、正書法攻撃に弱い。この脆弱性は、サブワードトークン化器とその埋め込みに固有の語彙外問題に起因している。本稿では,単語を個々の画像としてレンダリングすることで,テキストベースの埋め込みをピクセルベースの表現に置き換える,画素ベースの生成言語モデルを提案する。
参考スコア（独自算出の注目度）: 51.95266411355865
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Autoregressive language models are vulnerable to orthographic attacks, where input text is perturbed with characters from multilingual alphabets, leading to substantial performance degradation. This vulnerability primarily stems from the out-of-vocabulary issue inherent in subword tokenizers and their embeddings. To address this limitation, we propose a pixel-based generative language model that replaces the text-based embeddings with pixel-based representations by rendering words as individual images. This design provides stronger robustness to noisy inputs, while an extension of compatibility to multilingual text across diverse writing systems. We evaluate the proposed method on the multilingual LAMBADA dataset, WMT24 dataset and the SST-2 benchmark, demonstrating both its resilience to orthographic noise and its effectiveness in multilingual settings.
Abstract（参考訳）: 自動回帰言語モデルは正書法攻撃に対して脆弱であり、入力テキストは多言語アルファベットの文字でゆがめられ、性能が著しく低下する。この脆弱性は、主にサブワードトークン化器とその埋め込みに固有の語彙外問題に起因している。この制限に対処するために、テキストベースの埋め込みをピクセルベースの表現に置き換え、単語を個々の画像として描画する画素ベースの生成言語モデルを提案する。この設計は、ノイズの多い入力に対して強い堅牢性を提供し、多様な書き込みシステム間での多言語テキストとの互換性の拡張を提供する。提案手法を多言語LAMBADAデータセット, WMT24データセット, SST-2ベンチマークで評価し, 正弦波への耐性と多言語設定の有効性を実証した。

関連論文リスト

Overcoming Vocabulary Constraints with Pixel-level Fallback [9.753745943931207]
代名詞のトークン化には、計算効率と語彙カバレッジのバランスが必要である。画素として描画されたテキストから入力埋め込みを生成する語彙自由エンコーダを提案する。
論文参考訳（メタデータ） (2025-04-02T20:50:31Z)
Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文参考訳（メタデータ） (2024-07-03T08:15:39Z)
Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。 ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文参考訳（メタデータ） (2024-02-23T06:11:50Z)
Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。 BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文参考訳（メタデータ） (2023-11-29T07:33:38Z)
Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。事前訓練された言語モデルは限られた助けを提供する。
論文参考訳（メタデータ） (2023-11-27T07:19:26Z)
Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文参考訳（メタデータ） (2023-03-27T00:58:39Z)
To Augment or Not to Augment? A Comparative Study on Text Augmentation Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文参考訳（メタデータ） (2021-11-18T10:52:48Z)
Robust Open-Vocabulary Translation from Visual Text Representations [15.646399508495133]
機械翻訳モデルには、離散的および一般に「オープン語彙」サブワードセグメンテーション技術がある。このアプローチは、一貫性と正しい語彙に依存している。人間の言語処理を動機に,視覚的テキスト表現の利用を提案する。
論文参考訳（メタデータ） (2021-04-16T16:37:13Z)
Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文参考訳（メタデータ） (2020-11-23T16:00:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。