論文の概要: Machine Translation for Accessible Multi-Language Text Analysis
- arxiv url: http://arxiv.org/abs/2301.08416v1
- Date: Fri, 20 Jan 2023 04:11:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-23 13:47:46.057565
- Title: Machine Translation for Accessible Multi-Language Text Analysis
- Title(参考訳): アクセシブル多言語テキスト解析のための機械翻訳
- Authors: Edward W. Chew, William D. Weisman, Jingying Huang, Seth Frey
- Abstract要約: 英語への翻訳後に計算した英語学習尺度の精度が十分であることを示す。
これは、感情分析、トピック分析、単語の埋め込みという3つの主要な分析で、16以上の言語で示します。
- 参考スコア(独自算出の注目度): 1.5484595752241124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: English is the international standard of social research, but scholars are
increasingly conscious of their responsibility to meet the need for scholarly
insight into communication processes globally. This tension is as true in
computational methods as any other area, with revolutionary advances in the
tools for English language texts leaving most other languages far behind. In
this paper, we aim to leverage those very advances to demonstrate that
multi-language analysis is currently accessible to all computational scholars.
We show that English-trained measures computed after translation to English
have adequate-to-excellent accuracy compared to source-language measures
computed on original texts. We show this for three major analytics -- sentiment
analysis, topic analysis, and word embeddings -- over 16 languages, including
Spanish, Chinese, Hindi, and Arabic. We validate this claim by comparing
predictions on original language tweets and their backtranslations: double
translations from their source language to English and back to the source
language. Overall, our results suggest that Google Translate, a simple and
widely accessible tool, is effective in preserving semantic content across
languages and methods. Modern machine translation can thus help computational
scholars make more inclusive and general claims about human communication.
- Abstract(参考訳): 英語は社会研究の国際標準であるが、研究者は世界中のコミュニケーションプロセスに対する学術的洞察の必要性を満たす責任を意識している。
この緊張は、他の分野と同様に計算手法にも当てはまり、英語のテキストのツールの革命的な進歩は、他のほとんどの言語をはるかに遅れている。
本稿では,これらの進歩を活用して,現在すべての計算学者が多言語分析を利用できることを示す。
英訳後の英語学習尺度は,原文で計算した情報源言語尺度と比較して,十分な精度で正確であることを示す。
感情分析、話題分析、単語埋め込みという3つの主要な分析で、スペイン語、中国語、ヒンディー語、アラビア語を含む16以上の言語を対象にしています。
私たちは、元の言語ツイートとその逆翻訳の予測を比較して、この主張を検証する: ソース言語から英語への二重翻訳、そしてソース言語への逆変換。
全体として、Google Translateはシンプルで広くアクセス可能なツールであり、言語やメソッド間のセマンティックコンテンツの保存に有効であることを示唆している。
現代の機械翻訳は、計算学者が人間のコミュニケーションについてより包括的で一般的な主張をするのに役立つ。
関連論文リスト
- Enhancing Language Learning through Technology: Introducing a New English-Azerbaijani (Arabic Script) Parallel Corpus [0.9051256541674136]
本稿では,英語・アゼルバイジャン語の並列コーパスについて紹介する。
これは、低リソース言語のための言語学習と機械翻訳の技術的ギャップを埋めるように設計されている。
論文 参考訳(メタデータ) (2024-07-06T21:23:20Z) - Sentiment Analysis Across Languages: Evaluation Before and After Machine Translation to English [0.0]
本稿では,機械翻訳を行った多言語データセットおよびテキストを対象とした感性分析タスクにおけるトランスフォーマーモデルの性能について検討する。
異なる言語文脈におけるこれらのモデルの有効性を比較することで、それらの性能変化と様々な言語における感情分析の潜在的な影響について洞察を得ることができる。
論文 参考訳(メタデータ) (2024-05-05T10:52:09Z) - Massively Multilingual Text Translation For Low-Resource Languages [7.3595126380784235]
人道的な取り組みでは、ひどい低リソース言語への翻訳は、しばしば普遍的な翻訳エンジンを必要としない。
全ての言語に対する汎用的な翻訳エンジンは存在しないが、多言語で知られている制限付きテキストを新しい低リソース言語に翻訳することは可能かもしれない。
論文 参考訳(メタデータ) (2024-01-29T21:33:08Z) - Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - On the Influence of Machine Translation on Language Origin Obfuscation [0.3437656066916039]
本稿では、広く使われている2つの商用機械翻訳システムの翻訳結果から、ソースコードを検出する能力について分析する。
評価の結果,十分な量の翻訳文を含む文書に対して,ソースコードを高精度に再構築できることが示唆された。
論文 参考訳(メタデータ) (2021-06-24T08:33:24Z) - Improving Sentiment Analysis over non-English Tweets using Multilingual
Transformers and Automatic Translation for Data-Augmentation [77.69102711230248]
我々は、英語のつぶやきを事前学習し、自動翻訳を用いてデータ拡張を適用して非英語の言語に適応する多言語トランスフォーマーモデルを提案する。
我々のフランス語、スペイン語、ドイツ語、イタリア語での実験は、この手法が非英語のツイートの小さなコーパスよりも、トランスフォーマーの結果を改善する効果的な方法であることを示唆している。
論文 参考訳(メタデータ) (2020-10-07T15:44:55Z) - On Learning Language-Invariant Representations for Universal Machine
Translation [33.40094622605891]
ユニバーサル機械翻訳は、任意の言語間の翻訳を学ぶことを目的としている。
我々は、この取り組みのある種の不確実性を一般に証明し、データの追加的な(しかし自然な)構造の存在に肯定的な結果をもたらす。
我々は、我々の理論的な洞察と意味が、普遍機械翻訳のアルゴリズム設計に寄与すると信じている。
論文 参考訳(メタデータ) (2020-08-11T04:45:33Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。