論文の概要: KpopMT: Translation Dataset with Terminology for Kpop Fandom
- arxiv url: http://arxiv.org/abs/2407.07413v1
- Date: Wed, 10 Jul 2024 07:14:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 17:41:30.216564
- Title: KpopMT: Translation Dataset with Terminology for Kpop Fandom
- Title(参考訳): KpopMT:Kpop Fandomのためのターミノロジー付き翻訳データセット
- Authors: JiWoo Kim, Yunsu Kim, JinYeong Bak,
- Abstract要約: 専門家翻訳者は韓国の投稿やコメントのために1kの英訳を提供している。
我々は,KpopMT上のGPTモデルを含む既存の翻訳システムを評価し,その故障事例を同定する。
- 参考スコア(独自算出の注目度): 5.464669506214195
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While machines learn from existing corpora, humans have the unique capability to establish and accept new language systems. This makes human form unique language systems within social groups. Aligning with this, we focus on a gap remaining in addressing translation challenges within social groups, where in-group members utilize unique terminologies. We propose KpopMT dataset, which aims to fill this gap by enabling precise terminology translation, choosing Kpop fandom as an initiative for social groups given its global popularity. Expert translators provide 1k English translations for Korean posts and comments, each annotated with specific terminology within social groups' language systems. We evaluate existing translation systems including GPT models on KpopMT to identify their failure cases. Results show overall low scores, underscoring the challenges of reflecting group-specific terminologies and styles in translation. We make KpopMT publicly available.
- Abstract(参考訳): 機械は既存のコーパスから学習するが、人間は新しい言語システムを確立し、受け入れるユニークな能力を持っている。
これにより、社会集団の中で、人間の形がユニークな言語システムになる。
これに合わせて、グループ内メンバが独自の用語を使用する社会グループ内の翻訳課題に対処する際のギャップに焦点をあてる。
我々は,このギャップを埋めることを目的としたKpopMTデータセットを提案し,Kpopファンダムをグローバルな人気から社会団体のイニシアチブとして選んだ。
専門家翻訳者は韓国の投稿やコメントに1kの英訳を提供しており、それぞれが社会集団の言語システム内で特定の用語で注釈付けされている。
我々は,KpopMT上のGPTモデルを含む既存の翻訳システムを評価し,その故障事例を同定する。
結果は全体の低得点を示し、翻訳においてグループ固有の用語やスタイルを反映することの難しさを浮き彫りにしている。
KpopMTを公開しています。
関連論文リスト
- Does Incomplete Syntax Influence Korean Language Model? Focusing on Word Order and Case Markers [7.275938266030414]
語順やケースマーカーなどの構文要素は自然言語処理において基本的なものである。
本研究は,韓国語モデルがこの柔軟性を正確に捉えることができるかどうかを考察する。
論文 参考訳(メタデータ) (2024-07-12T11:33:41Z) - K-pop Lyric Translation: Dataset, Analysis, and Neural-Modelling [7.819710421921816]
約89%がK-popの歌詞から成り立っている。
このデータセットは、韓国語と英語の歌詞を並べて、セクションごとに並べる。
ニューラル・リリック翻訳モデルを構築し,歌唱用リリック翻訳のための専用データセットの重要性を強調する。
論文 参考訳(メタデータ) (2023-09-20T06:54:55Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - K-UniMorph: Korean Universal Morphology and its Feature Schema [1.3048920509133806]
韓国語に対する新しいユニバーサル・モルフォロジー・データセットを提案する。
文末の文法的基準を詳細に概説し, 屈折形を抽出する方法を明らかにし, 形態的スキーマの生成方法を示す。
我々は,韓国語の3つの単語形式(文字,音節,形態素)を用いて屈折処理を行う。
論文 参考訳(メタデータ) (2023-05-10T17:44:01Z) - "I'm" Lost in Translation: Pronoun Missteps in Crowdsourced Data Sets [13.32560004325655]
クラウドソーシングのイニシアチブは、自然言語処理(NLP)に使用される大規模でオープンなデータセットの多言語翻訳に重点を置いている。
本研究は,クラウドソース型タトエバデータベースにおいて,英語と日本語で翻訳された代名詞の事例に着目した。
男性代名詞の偏見は,複数の言語が他の方法で説明されているにもかかわらず,全体として存在することがわかった。
論文 参考訳(メタデータ) (2023-04-22T09:27:32Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [41.612825615273906]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるdictdisを提案する。
我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、dictdisの有用性を実証する。
論文 参考訳(メタデータ) (2022-10-13T13:04:16Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Decoding and Diversity in Machine Translation [90.33636694717954]
NMTが楽しむBLEUスコアに対して支払う費用の多様性の違いを特徴付ける。
本研究は,ジェンダー代名詞を翻訳する際に,検索が既知バイアスの正解源となることを示唆する。
論文 参考訳(メタデータ) (2020-11-26T21:09:38Z) - The Paradigm Discovery Problem [121.79963594279893]
我々は、パラダイム発見問題を定式化し、システム判定のためのメトリクスを開発する。
5つの多言語に対する経験的結果について報告する。
私たちのコードとデータは公開されています。
論文 参考訳(メタデータ) (2020-05-04T16:38:54Z) - Visual Grounding in Video for Unsupervised Word Translation [91.47607488740647]
我々は、言語間の教師なし単語マッピングを改善するために、視覚的接地を用いる。
ネイティブ言語でナレーションされた無人の教育ビデオから埋め込みを学習する。
これらの手法を英語からフランス語、韓国語、日本語への翻訳に適用する。
論文 参考訳(メタデータ) (2020-03-11T02:03:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。