論文の概要: Robust Open-Vocabulary Translation from Visual Text Representations
- arxiv url: http://arxiv.org/abs/2104.08211v1
- Date: Fri, 16 Apr 2021 16:37:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:24:39.382862
- Title: Robust Open-Vocabulary Translation from Visual Text Representations
- Title(参考訳): 視覚テキスト表現からのロバストなオープン語彙変換
- Authors: Elizabeth Salesky, David Etter, Matt Post
- Abstract要約: 機械翻訳モデルには、離散的および一般に「オープン語彙」サブワードセグメンテーション技術がある。
このアプローチは、一貫性と正しい語彙に依存している。
人間の言語処理を動機に,視覚的テキスト表現の利用を提案する。
- 参考スコア(独自算出の注目度): 15.646399508495133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine translation models have discrete vocabularies and commonly use
subword segmentation techniques to achieve an 'open-vocabulary.' This approach
relies on consistent and correct underlying unicode sequences, and makes models
susceptible to degradation from common types of noise and variation. Motivated
by the robustness of human language processing, we propose the use of visual
text representations, which dispense with a finite set of text embeddings in
favor of continuous vocabularies created by processing visually rendered text.
We show that models using visual text representations approach or match
performance of text baselines on clean TED datasets. More importantly, models
with visual embeddings demonstrate significant robustness to varied types of
noise, achieving e.g., 25.9 BLEU on a character permuted German--English task
where subword models degrade to 1.9.
- Abstract(参考訳): 機械翻訳モデルは離散語彙を持ち、「開語彙」を達成するためにサブワードセグメンテーション技術を用いることが多い。
このアプローチは、一貫性と正しいunicodeシーケンスに依存しており、モデルが一般的なタイプのノイズやバリエーションから劣化しやすいようにしている。
人間の言語処理の頑健さに感銘を受け、視覚的に描画されたテキストを処理して生成した連続語彙に代えて、有限組のテキスト埋め込みを不要とした視覚テキスト表現を提案する。
ビジュアルテキスト表現を用いたモデルが、クリーンTEDデータセット上でのテキストベースラインの性能と一致しているかを示す。
さらに重要なことに、視覚埋め込みのあるモデルは様々な種類のノイズに対して有意な頑健性を示しており、例えば、サブワードモデルが1.9に分解するドイツ語-英語のタスクで25.9 bleuを達成する。
関連論文リスト
- CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。
機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。
提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-19T15:27:11Z) - ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models [52.23899502520261]
テキスト構造学習に焦点を当てたARTISTという新しいフレームワークを提案する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
MARIO-Evalベンチマークの実証結果は,提案手法の有効性を裏付けるものであり,様々な指標において最大15%の改善が見られた。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - WordStylist: Styled Verbatim Handwritten Text Generation with Latent
Diffusion Models [8.334487584550185]
単語レベルに基づくテキスト・テキスト・コンテンツ・イメージ生成のための遅延拡散に基づく手法を提案する。
提案手法は,異なる書き手スタイルからリアルな単語画像のサンプルを生成することができる。
提案モデルでは,美的満足度の高いサンプルを作成し,テキスト認識性能の向上に寄与し,類似の文字検索スコアを実データとして得られることを示す。
論文 参考訳(メタデータ) (2023-03-29T10:19:26Z) - Text Generation with Text-Editing Models [78.03750739936956]
このチュートリアルは、テキスト編集モデルと最先端のアプローチの概要を提供する。
生産化に関わる課題と、これらのモデルが幻覚や偏見を軽減するためにどのように使用できるかについて議論する。
論文 参考訳(メタデータ) (2022-06-14T17:58:17Z) - Imputing Out-of-Vocabulary Embeddings with LOVE Makes Language Models
Robust with Little Cost [5.672132510411465]
最先端のNLPシステムは、単語埋め込みを伴う入力を表すが、外語彙の単語に直面すると、これらは不安定である。
我々は,単語の表面形のみを用いて事前学習した埋め込みの挙動を学習することにより,未知語に対するベクトルを生成するための模倣様モデルの原理に従う。
本稿では,既存の事前学習型言語モデル(BERTなど)の単語表現を拡張したシンプルなコントラスト学習フレームワークLOVEを提案する。
論文 参考訳(メタデータ) (2022-03-15T13:11:07Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z) - Contextualized Spoken Word Representations from Convolutional
Autoencoders [2.28438857884398]
本稿では,畳み込み型オートエンコーダに基づくニューラルアーキテクチャを提案し,様々な長さの音声単語の構文的かつ意味論的に適切な文脈化表現をモデル化する。
提案モデルでは,他の2つの言語モデルと比較して頑健性を示すことができた。
論文 参考訳(メタデータ) (2020-07-06T16:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。