論文の概要: Killing Two Flies with One Stone: An Attempt to Break LLMs Using English->Icelandic Idioms and Proper Names
- arxiv url: http://arxiv.org/abs/2410.03394v1
- Date: Fri, 4 Oct 2024 12:57:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 22:39:00.318268
- Title: Killing Two Flies with One Stone: An Attempt to Break LLMs Using English->Icelandic Idioms and Proper Names
- Title(参考訳): 2羽のハエを1羽の石で殺す: 英語の「Icelandic Idioms」と「Proper Names」を使ってLSMを壊そうとする試み
- Authors: Bjarki Ármannsson, Hinrik Hafsteinsson, Atli Jasonarson, Steinþór Steingrímsson,
- Abstract要約: 本稿は,英語・アイスランド語翻訳における慣用的表現と固有名称について述べる。
まず、一般的な英語の慣用表現の翻訳におけるMTシステムの能力を評価する。
2つ目のテストスイートはアイスランドの地名に翻訳され、正しく入力される場所名で構成されている。
- 参考スコア(独自算出の注目度): 0.7499722271664147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the submission of the \'Arni Magn\'usson Institute's team to the WMT24 test suite subtask, focusing on idiomatic expressions and proper names for the English->Icelandic translation direction. Intuitively and empirically, idioms and proper names are known to be a significant challenge for modern translation models. We create two different test suites. The first evaluates the competency of MT systems in translating common English idiomatic expressions, as well as testing whether systems can distinguish between those expressions and the same phrases when used in a literal context. The second test suite consists of place names that should be translated into their Icelandic exonyms (and correctly inflected) and pairs of Icelandic names that share a surface form between the male and female variants, so that incorrect translations impact meaning as well as readability. The scores reported are relatively low, especially for idiomatic expressions and place names, and indicate considerable room for improvement.
- Abstract(参考訳): 本稿では,WMT24テストスイートのサブタスクに,'Arni Magn\'usson Institute'sのチームが参加し,英語からアイスランド語への翻訳方向の慣用的な表現と適切な名前に焦点をあてる。
直感的にも経験的にも、慣用句や固有名称は現代の翻訳モデルにとって重要な課題であることが知られている。
2つの異なるテストスイートを作成します。
1つ目は、一般的な英語の慣用表現を翻訳する際のMTシステムの能力を評価し、また、リテラル文脈で使用する場合、それらの表現と同一のフレーズを区別できるかどうかをテストする。
第2のテストスイートはアイスランド語の異名に翻訳されるべき地名と、男性と女性の間の表面的な形態を共有するアイスランド語の2つの名前からなるため、誤った翻訳が読みやすさに影響を及ぼす。
報告されたスコアは比較的低く、特に慣用的な表現や地名についてであり、改善の余地がかなりあることを示している。
関連論文リスト
- Limpeh ga li gong: Challenges in Singlish Annotations [1.3812010983144802]
本稿では,Singlish文のPOSタグ付けという,自然言語処理の基本タスクについて検討する。
そこで本研究では,ネイティブなSinglish話者による翻訳とPOSアノテーションを用いて,直接英訳とPOSタグを含む並列Singlishデータセットを構築した。
自動トランジションおよびトランスフォーマーベースのタグは、人名付きPOSラベルに対して評価すると、たったの$sim 80%の精度で実行される。
論文 参考訳(メタデータ) (2024-10-21T16:21:45Z) - What an Elegant Bridge: Multilingual LLMs are Biased Similarly in Different Languages [51.0349882045866]
本稿では,Large Language Models (LLMs) の文法的ジェンダーのレンズによるバイアスについて検討する。
様々な言語における形容詞を持つ名詞を記述するためのモデルを提案し,特に文法性のある言語に焦点を当てた。
単純な分類器は、偶然以上の名詞の性別を予測できるだけでなく、言語間の移動可能性も示せる。
論文 参考訳(メタデータ) (2024-07-12T22:10:16Z) - Do Pretrained Contextual Language Models Distinguish between Hebrew Homograph Analyses? [12.631897904322676]
本研究では,ヘブライ語のホモグラフの曖昧さについて,事前学習言語モデルを用いて検討する。
現代ヘブライ語における文脈的埋め込みは,非文脈的埋め込みよりも優れていることを示す。
また、これらの埋め込みは、バランスの取れた分布と歪んだ分布の両方のホモグラフに対して等しく有効であることを示す。
論文 参考訳(メタデータ) (2024-05-11T21:50:56Z) - That was the last straw, we need more: Are Translation Systems Sensitive
to Disambiguating Context? [64.38544995251642]
我々は、源泉に存在している意味的あいまいさ(本研究における英語)について研究する。
我々は、リテラルと図形の両方にオープンなイディオムに焦点を当てている。
現在のMTモデルは、たとえ文脈が比喩的解釈を示しているとしても、英語のイディオムを文字通りに翻訳する。
論文 参考訳(メタデータ) (2023-10-23T06:38:49Z) - Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - Can Transformer be Too Compositional? Analysing Idiom Processing in
Neural Machine Translation [55.52888815590317]
リテラル表現とは異なり、イディオムの意味はその部分から直接従わない。
NMTモデルは、しばしばイディオムを正確に、過剰に生成し、文字通り翻訳することができない。
支配的なNMTモデルであるTransformerの力学において,イディオムの非合成性が反映されているかを検討する。
論文 参考訳(メタデータ) (2022-05-30T17:59:32Z) - A BERT-based Dual Embedding Model for Chinese Idiom Prediction [8.903106634925853]
中国語のイディオム予測タスクは、空白のある文脈で与えられた候補イディオムの集合から正しいイディオムを選択することである。
本稿では,単語の文脈を符号化し,イディオムの二重埋め込みを学習するためのBERTベースの二重埋め込みモデルを提案する。
論文 参考訳(メタデータ) (2020-11-04T16:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。