論文の概要: Data-Driven Approach for Formality-Sensitive Machine Translation:
Language-Specific Handling and Synthetic Data Generation
- arxiv url: http://arxiv.org/abs/2306.14514v1
- Date: Mon, 26 Jun 2023 08:45:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 14:25:01.952553
- Title: Data-Driven Approach for Formality-Sensitive Machine Translation:
Language-Specific Handling and Synthetic Data Generation
- Title(参考訳): 形式的感性機械翻訳のためのデータ駆動型アプローチ:言語特化処理と合成データ生成
- Authors: Seugnjun Lee, Hyeonseok Moon, Chanjun Park, Heuiseok Lim
- Abstract要約: 本稿では,4つの言語に固有の言語特性を取り入れた,形式感性機械翻訳(FSMT)のためのデータ駆動型手法を提案する。
提案手法は,1)言語固有のデータハンドリング,2)大規模言語モデルと経験的プロンプトエンジニアリングを用いた合成データ生成という,2つの中核戦略に重点を置いている。
- 参考スコア(独自算出の注目度): 5.536220901048185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a data-driven approach for Formality-Sensitive
Machine Translation (FSMT) that caters to the unique linguistic properties of
four target languages. Our methodology centers on two core strategies: 1)
language-specific data handling, and 2) synthetic data generation using
large-scale language models and empirical prompt engineering. This approach
demonstrates a considerable improvement over the baseline, highlighting the
effectiveness of data-centric techniques. Our prompt engineering strategy
further improves performance by producing superior synthetic translation
examples.
- Abstract(参考訳): 本稿では,4つの対象言語の固有言語特性に対応する形式性感応機械翻訳(fsmt)のためのデータ駆動手法を提案する。
私たちの方法論は2つの戦略に集中しています
1)言語固有のデータ処理、および
2)大規模言語モデルと経験的プロンプト工学を用いた合成データ生成
このアプローチはベースラインを大きく改善し、データ中心の技術の有効性を強調している。
提案手法は, 優れた合成翻訳例を作成することにより, 性能をさらに向上させる。
関連論文リスト
- Enhancing SLM via ChatGPT and Dataset Augmentation [0.3844771221441211]
我々は,大言語モデル (LLMs) と小言語モデル (SLMs) のパフォーマンスギャップを埋めるために,知識蒸留技術と合成データセット拡張を用いている。
提案手法は,情報抽出と情報推論という2種類の理性生成を伴い,ANLIデータセットを充実させる。
その結果, 合成合理化によって自然言語の理解能力が向上し, ANLIデータセット上での分類精度が1.3%, 2.3%向上することが判明した。
論文 参考訳(メタデータ) (2024-09-19T09:24:36Z) - Instruction Data Generation and Unsupervised Adaptation for Speech Language Models [21.56355461403427]
本稿では,多モーダル大規模言語モデルの訓練と評価を行うために,合成サンプルを生成する3つの方法を提案する。
このようなシステムの性能を高めるための重要な戦略として、合成データ生成が出現する。
我々は、未ラベルの音声データを用いて、利用可能な書き起こしに匹敵する品質の合成サンプルを生成する可能性を強調した。
論文 参考訳(メタデータ) (2024-06-18T08:27:00Z) - Curating Grounded Synthetic Data with Global Perspectives for Equitable AI [0.5120567378386615]
我々は,実世界の多様性を基盤として,戦略的多様化を通じて充実した合成データセットを作成するための新しいアプローチを導入する。
我々は12の言語と125の国にまたがる包括的なニュース記事の集合を用いてデータを合成し、言語的・文化的表現の広さを確実にする。
予備的な結果は、従来のNERベンチマークのパフォーマンスが最大7.3%向上したことを示している。
論文 参考訳(メタデータ) (2024-06-10T17:59:11Z) - Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - A Morphologically-Aware Dictionary-based Data Augmentation Technique for
Machine Translation of Under-Represented Languages [31.18983138590214]
本稿では,モルフォシンタクティック情報とバイリンガル辞書を用いて並列データを合成する手法を提案する。
我々の手法は、小さな並列シードデータによって支えられた現実的なシナリオに固執する。
文法的に正しい可能性が高い拡張データを作成することを目的としており、言語的に知らされている。
論文 参考訳(メタデータ) (2024-02-02T22:25:44Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - On the Economics of Multilingual Few-shot Learning: Modeling the
Cost-Performance Trade-offs of Machine Translated and Manual Data [12.638781962950805]
本稿では,機械翻訳データと手作業で作成したラベル付きデータのパフォーマンスとコストのトレードオフを評価するためのフレームワークを提案する。
本稿では,TyDIQA-GoldPデータセットのケーススタディによるフレームワークの有効性について述べる。
論文 参考訳(メタデータ) (2022-05-12T20:27:01Z) - Improving Neural Machine Translation by Bidirectional Training [85.64797317290349]
我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。
具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。
実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:58:33Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z) - Dynamic Data Selection and Weighting for Iterative Back-Translation [116.14378571769045]
本稿では,反復的バックトランスレーションモデルのためのカリキュラム学習戦略を提案する。
我々は、ドメイン適応、低リソース、高リソースMT設定に関するモデルを評価する。
実験の結果,提案手法は競争基準値よりも最大1.8 BLEU点の改善を達成できた。
論文 参考訳(メタデータ) (2020-04-07T19:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。