論文の概要: An Empirical Study on Chinese Character Decomposition in Multiword Expression-Aware Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2512.15556v1
- Date: Wed, 17 Dec 2025 16:08:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.054435
- Title: An Empirical Study on Chinese Character Decomposition in Multiword Expression-Aware Neural Machine Translation
- Title(参考訳): 単語認識型ニューラルマシン翻訳における漢字分解の実証的研究
- Authors: Lifeng Han, Gareth J. F. Jones, Alan F. Smeaton,
- Abstract要約: MWE(Multi-word Expression)は、曖昧さ、慣用的な表現、頻度の低い使用法、幅広いバリエーションを導入することで、タスクを複雑化する。
サブワードモデリングは、フレーズ理解を改善する稀な単語に対処するために、多くの西洋言語にうまく適用されてきた。
我々は、MWE対応ニューラルマシン翻訳の文脈において、漢字分解技術の体系的研究を行う。
- 参考スコア(独自算出の注目度): 6.094618601251568
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Word meaning, representation, and interpretation play fundamental roles in natural language understanding (NLU), natural language processing (NLP), and natural language generation (NLG) tasks. Many of the inherent difficulties in these tasks stem from Multi-word Expressions (MWEs), which complicate the tasks by introducing ambiguity, idiomatic expressions, infrequent usage, and a wide range of variations. Significant effort and substantial progress have been made in addressing the challenging nature of MWEs in Western languages, particularly English. This progress is attributed in part to the well-established research communities and the abundant availability of computational resources. However, the same level of progress is not true for language families such as Chinese and closely related Asian languages, which continue to lag behind in this regard. While sub-word modelling has been successfully applied to many Western languages to address rare words improving phrase comprehension, and enhancing machine translation (MT) through techniques like byte-pair encoding (BPE), it cannot be applied directly to ideograph language scripts like Chinese. In this work, we conduct a systematic study of the Chinese character decomposition technology in the context of MWE-aware neural machine translation (NMT). Furthermore, we report experiments to examine how Chinese character decomposition technology contributes to the representation of the original meanings of Chinese words and characters, and how it can effectively address the challenges of translating MWEs.
- Abstract(参考訳): 単語の意味、表現、解釈は、自然言語理解(NLU)、自然言語処理(NLP)、自然言語生成(NLG)タスクにおいて基本的な役割を果たす。
これらのタスクに固有の困難の多くは、曖昧さ、慣用的表現、頻繁な使用、幅広いバリエーションを導入することでタスクを複雑化するマルチワード表現(MWEs)に起因している。
西洋語、特に英語におけるMWEの挑戦的な性質に対処するために、重要な努力とかなりの進歩がなされている。
この進歩は、よく確立された研究コミュニティと、計算資源の豊富な利用によってもたらされる。
しかし、中国語や近縁のアジア諸語など、この点では後れを取っている言語族にとっては、同じ水準の進展は当てはまらない。
サブワードモデリングは多くの西洋語に適用され、単語理解の改善やバイトペアエンコーディング(BPE)などの手法による機械翻訳(MT)の強化に成功しているが、中国語のようなイデオログラフ言語スクリプトに直接適用することはできない。
本研究では,MWE対応ニューラルマシン翻訳(NMT)の文脈において,漢字分解技術の体系的研究を行う。
さらに、中国語の文字分解技術が中国語の単語や文字の本来の意味の表現にどのように貢献するか、また、MWEを翻訳する際の課題に効果的に対処する方法について検討する。
関連論文リスト
- Liaozhai through the Looking-Glass: On Paratextual Explicitation of Culture-Bound Terms in Machine Translation [70.43884512651668]
我々は、文学・翻訳研究からジェネットのパラテキスト論(1987年)を定式化し、機械翻訳におけるパラテキスト明示の課題を紹介した。
古典中国語の短編集集Liaozhaiの4つの英訳から560の専門家対応パラテキストのデータセットを構築した。
本研究は,言語的等価性を超えた機械翻訳におけるパラテクスト的明示の可能性を示すものである。
論文 参考訳(メタデータ) (2025-09-27T16:27:36Z) - Enhancing Entertainment Translation for Indian Languages using Adaptive Context, Style and LLMs [3.55026004901472]
本稿では,現在のセッションの文脈とスタイルを推定するアルゴリズムを導入し,これらの推定値を用いてLLM(Large Language Model)を誘導し,高品質な翻訳を生成するプロンプトを生成する。
本手法はLLMに依存しない言語であり,汎用ツールである。
論文 参考訳(メタデータ) (2024-12-29T11:33:51Z) - The Role of Handling Attributive Nouns in Improving Chinese-To-English Machine Translation [5.64086253718739]
特に、中国語の帰属名詞による翻訳課題を対象とし、英語翻訳における曖昧さをしばしば引き起こす。
省略粒子X('DE')を手動で挿入することで、この臨界関数ワードの処理方法を改善する。
論文 参考訳(メタデータ) (2024-12-18T20:37:52Z) - Real-Time Multilingual Sign Language Processing [4.626189039960495]
手話処理(SLP)は、自然言語処理(NLP)とコンピュータビジョンからなる学際分野である。
伝統的なアプローチは、言語固有のものであり、手話の多次元的な性質を捉えるのに不十分なグロスベースのシステムを使用することによって、しばしば制約されてきた。
本稿では,手話文字起こし表記システムであるSignWiringを,手話の視覚・ジェスチャーのモダリティとテキストに基づく言語表現の中間的リンクとして用いることを提案する。
論文 参考訳(メタデータ) (2024-12-02T21:51:41Z) - Thesis proposal: Are We Losing Textual Diversity to Natural Language Processing? [3.8073142980733]
ニューラルネットワーク翻訳で使用されるアルゴリズムは、ほとんどの入力タイプに有益であるが、非典型的テキストの処理に有害な帰納的バイアスを持つかどうかを問う。
我々は,NMTシステムがこのようなテキストの多様性を維持するのに苦戦しているかどうかを調べるために,一連の実験を行った。
我々の最終的な目標は、出力の統計特性の分布に一様性を課さない代替手段を開発することである。
論文 参考訳(メタデータ) (2024-09-15T01:06:07Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z) - Code-Switching with Word Senses for Pretraining in Neural Machine
Translation [107.23743153715799]
ニューラルネットワーク翻訳のための単語センス事前学習(WSP-NMT)について紹介する。
WSP-NMTは、知識ベースからの単語感覚情報を活用した多言語NMTモデルの事前学習のためのエンドツーエンドアプローチである。
実験の結果,全体の翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2023-10-21T16:13:01Z) - Neural Machine Translation For Low Resource Languages [0.0]
本稿では,低資源言語の領域を考察し,最先端の結果を得るためにニューラルマシン翻訳モデルを構築する。
本稿は,mBART言語モデルを構築し,様々なNLPおよびディープラーニング技術でそれを拡張するための戦略を探究する。
論文 参考訳(メタデータ) (2023-04-16T19:27:48Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - On the Integration of LinguisticFeatures into Statistical and Neural
Machine Translation [2.132096006921048]
機械翻訳に対する統計的アプローチの強みと人間の翻訳方法の相違について検討する。
自動翻訳システムがより正確な翻訳を行うために欠落している言語情報を同定する。
我々は、過一般化または「アルゴミックバイアス」をニューラルMTの潜在的な欠点として認識し、残りの言語問題の多くにリンクする。
論文 参考訳(メタデータ) (2020-03-31T16:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。