論文の概要: Exploring In-context Example Generation for Machine Translation
- arxiv url: http://arxiv.org/abs/2506.00507v1
- Date: Sat, 31 May 2025 11:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.64836
- Title: Exploring In-context Example Generation for Machine Translation
- Title(参考訳): 機械翻訳におけるテキスト内例生成の探索
- Authors: Dohyun Lee, Seungil Chad Lee, Chanwoo Yang, Yujin Baek, Jaegul Choo,
- Abstract要約: 大規模言語モデル(LLM)は様々なタスクにまたがって強力なパフォーマンスを示しており、いくつかの例で例外的な文脈内学習能力を活用している。
機械翻訳の分野では、最適な文脈内サンプルの選択が活発に研究されている。
本稿では,機械翻訳における文脈内サンプル生成の研究の方向性について検討する。
- 参考スコア(独自算出の注目度): 31.452440230088577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated strong performance across various tasks, leveraging their exceptional in-context learning ability with only a few examples. Accordingly, the selection of optimal in-context examples has been actively studied in the field of machine translation. However, these studies presuppose the presence of a demonstration pool with human-annotated pairs, making them less applicable to low-resource languages where such an assumption is challenging to meet. To overcome this limitation, this paper explores the research direction of in-context example generation for machine translation. Specifically, we propose Demonstration Augmentation for Translation (DAT), a simple yet effective approach that generates example pairs without relying on any external resources. This method builds upon two prior criteria, relevance and diversity, which have been highlighted in previous work as key factors for in-context example selection. Through experiments and analysis on low-resource languages where human-annotated pairs are scarce, we show that DAT achieves superior translation quality compared to the baselines. Furthermore, we investigate the potential of progressively accumulating generated pairs during test time to build and reuse a demonstration pool. Our implementation is publicly available at https://github.com/aiclaudev/DAT.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なタスクにまたがって強力なパフォーマンスを示しており、いくつかの例で例外的な文脈内学習能力を活用している。
そのため、機械翻訳の分野では、最適な文脈内サンプルの選択が活発に研究されている。
しかしながら、これらの研究は、人間に注釈を付けたペアによるデモプールの存在を前提としており、そのような仮定が満たせない低リソース言語には適用できない。
この制限を克服するために,機械翻訳における文脈内サンプル生成の研究の方向性について検討する。
具体的には、外部リソースを使わずにサンプルペアを生成する、シンプルで効果的なDAT(Demonstration Augmentation for Translation)を提案する。
この手法は2つの事前基準、すなわち妥当性と多様性の上に構築され、これは従来の研究において、文脈内サンプル選択の鍵となる要因として強調されてきた。
人間の注釈付きペアが不足している低リソース言語に対する実験と解析により、DATはベースラインよりも優れた翻訳品質が得られることを示す。
さらに,実証プールの構築と再利用のために,テスト期間中に生成したペアを段階的に蓄積する可能性についても検討する。
私たちの実装はhttps://github.com/aiclaudev/DAT.comで公開されています。
関連論文リスト
- PromptRefine: Enhancing Few-Shot Performance on Low-Resource Indic Languages with Example Selection from Related Example Banks [57.86928556668849]
大規模言語モデル(LLM)は、近ごろ、コンテキスト内学習(ICL)を通じて、印象的な数ショットの学習能力を実証した。
ICLのパフォーマンスは、数発のデモの選択に大きく依存しており、最も最適な例の選択は永続的な研究課題である。
本稿では,低リソースのIndic言語におけるICLの性能向上を目的とした,新しい代替最小化手法であるPromptRefineを提案する。
論文 参考訳(メタデータ) (2024-12-07T17:51:31Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Effective Self-Mining of In-Context Examples for Unsupervised Machine Translation with LLMs [16.98133269527045]
機械翻訳(MT)における文脈内例の教師なし手法を提案する。
教師なし並列文のプールから最適なテキスト内例を選択するためのフィルタリング基準を導入する。
本研究は,MTの文脈内マイニングにおける教師なしアプローチの有効性を実証するものである。
論文 参考訳(メタデータ) (2024-10-14T18:47:04Z) - Finding Support Examples for In-Context Learning [73.90376920653507]
本稿では,この課題を2段階に解決するためのfilter-thEN-Search法であるLENSを提案する。
まず、データセットをフィルタリングして、個別に情報的インコンテキストの例を得る。
そこで本研究では,反復的に改良し,選択したサンプル順列を評価可能な多様性誘導型サンプル探索を提案する。
論文 参考訳(メタデータ) (2023-02-27T06:32:45Z) - In-context Examples Selection for Machine Translation [101.50473468507697]
大規模生成モデルは、コンテキスト内学習を用いて、幅広い自然言語処理(NLP)タスクを実行するという印象的な能力を示している。
機械翻訳(MT)の場合、これらの例は、通常、開発データセットからランダムにサンプリングされ、評価セットと同じような分布を持つ。
テキスト内サンプルの翻訳品質とドメインが重要であり,1ショットノイズ非関連例が出力品質に破滅的な影響を及ぼす可能性が示唆された。
論文 参考訳(メタデータ) (2022-12-05T17:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。