論文の概要: Towards End-to-End In-Image Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2010.10648v1
- Date: Tue, 20 Oct 2020 22:20:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 05:43:57.610418
- Title: Towards End-to-End In-Image Neural Machine Translation
- Title(参考訳): 画像内ニューラルネットワークのエンドツーエンド翻訳に向けて
- Authors: Elman Mansimov, Mitchell Stern, Mia Chen, Orhan Firat, Jakob
Uszkoreit, Puneet Jain
- Abstract要約: 本稿では,ニューラルマシン翻訳の最近のアプローチに触発された,エンドツーエンドのニューラルモデルを提案する。
我々は,ピクセルレベルの監督に基づく有望な初期結果を示す。
- 参考スコア(独自算出の注目度): 37.53191837095177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we offer a preliminary investigation into the task of in-image
machine translation: transforming an image containing text in one language into
an image containing the same text in another language. We propose an end-to-end
neural model for this task inspired by recent approaches to neural machine
translation, and demonstrate promising initial results based purely on
pixel-level supervision. We then offer a quantitative and qualitative
evaluation of our system outputs and discuss some common failure modes.
Finally, we conclude with directions for future work.
- Abstract(参考訳): 本稿では、ある言語でテキストを含む画像から別の言語で同じテキストを含む画像へ変換するインイメージ機械翻訳の課題について、予備的な調査を行う。
本稿では,近年のニューラルマシン翻訳のアプローチに触発された,この課題に対するエンドツーエンドのニューラルモデルを提案し,ピクセルレベルの監督に基づく有望な初期結果を示す。
次に,システム出力の定量的・質的評価を行い,一般的な故障モードについて考察する。
最後に,今後の研究の方向性について述べる。
関連論文リスト
- Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - Multimodal Neurons in Pretrained Text-Only Transformers [52.20828443544296]
視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定する。
マルチモーダルニューロンは入力を横断する特定の視覚概念で動作し、画像キャプションに系統的な因果効果を有することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:27:12Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - HanoiT: Enhancing Context-aware Translation via Selective Context [95.93730812799798]
コンテキスト対応ニューラルネットワーク翻訳は、文書レベルのコンテキストを使用して翻訳品質を改善することを目的としている。
無関係または自明な単語は、いくつかのノイズをもたらし、モデルが現在の文と補助的な文脈の関係を学ぶのを邪魔する可能性がある。
そこで本稿では,階層的選択機構を備えたエンド・ツー・エンドのエンコーダ・デコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:07:13Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Improving End-to-End Text Image Translation From the Auxiliary Text
Translation Task [26.046624228278528]
本稿では,テキスト翻訳を補助タスクとするエンドツーエンドモデルを訓練する,新しいテキスト翻訳拡張テキスト画像翻訳を提案する。
モデルパラメータとマルチタスクのトレーニングを共有することで,大規模テキスト並列コーパスを最大限に活用することができる。
論文 参考訳(メタデータ) (2022-10-08T02:35:45Z) - Multimodal Neural Machine Translation with Search Engine Based Image
Retrieval [4.662583832063716]
バイリンガルパラレルコーパスのための記述画像収集のためのオープン語彙画像検索手法を提案する。
提案手法は,強いベースラインに対する大幅な改善を実現する。
論文 参考訳(メタデータ) (2022-07-26T08:42:06Z) - AttViz: Online exploration of self-attention for transparent neural
language modeling [7.574392147428978]
本研究では,AttVizを提案する。AttVizは,個々のテキストトークンに関連付けられた自己注意値の探索を行うオンラインツールキットである。
既存のディープラーニングパイプラインが、AttVizに適したアウトプットを生成し、最小限の労力で、アテンションヘッドとアグリゲーションの新たな視覚化を提供する方法を示します。
論文 参考訳(メタデータ) (2020-05-12T12:21:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。