論文の概要: Exploring In-context Example Generation for Machine Translation
- arxiv url: http://arxiv.org/abs/2506.00507v1
- Date: Sat, 31 May 2025 11:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.64836
- Title: Exploring In-context Example Generation for Machine Translation
- Title(参考訳): 機械翻訳におけるテキスト内例生成の探索
- Authors: Dohyun Lee, Seungil Chad Lee, Chanwoo Yang, Yujin Baek, Jaegul Choo,
- Abstract要約: 大規模言語モデル(LLM)は様々なタスクにまたがって強力なパフォーマンスを示しており、いくつかの例で例外的な文脈内学習能力を活用している。
機械翻訳の分野では、最適な文脈内サンプルの選択が活発に研究されている。
本稿では,機械翻訳における文脈内サンプル生成の研究の方向性について検討する。
- 参考スコア(独自算出の注目度): 31.452440230088577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated strong performance across various tasks, leveraging their exceptional in-context learning ability with only a few examples. Accordingly, the selection of optimal in-context examples has been actively studied in the field of machine translation. However, these studies presuppose the presence of a demonstration pool with human-annotated pairs, making them less applicable to low-resource languages where such an assumption is challenging to meet. To overcome this limitation, this paper explores the research direction of in-context example generation for machine translation. Specifically, we propose Demonstration Augmentation for Translation (DAT), a simple yet effective approach that generates example pairs without relying on any external resources. This method builds upon two prior criteria, relevance and diversity, which have been highlighted in previous work as key factors for in-context example selection. Through experiments and analysis on low-resource languages where human-annotated pairs are scarce, we show that DAT achieves superior translation quality compared to the baselines. Furthermore, we investigate the potential of progressively accumulating generated pairs during test time to build and reuse a demonstration pool. Our implementation is publicly available at https://github.com/aiclaudev/DAT.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なタスクにまたがって強力なパフォーマンスを示しており、いくつかの例で例外的な文脈内学習能力を活用している。
そのため、機械翻訳の分野では、最適な文脈内サンプルの選択が活発に研究されている。
しかしながら、これらの研究は、人間に注釈を付けたペアによるデモプールの存在を前提としており、そのような仮定が満たせない低リソース言語には適用できない。
この制限を克服するために,機械翻訳における文脈内サンプル生成の研究の方向性について検討する。
具体的には、外部リソースを使わずにサンプルペアを生成する、シンプルで効果的なDAT(Demonstration Augmentation for Translation)を提案する。
この手法は2つの事前基準、すなわち妥当性と多様性の上に構築され、これは従来の研究において、文脈内サンプル選択の鍵となる要因として強調されてきた。
人間の注釈付きペアが不足している低リソース言語に対する実験と解析により、DATはベースラインよりも優れた翻訳品質が得られることを示す。
さらに,実証プールの構築と再利用のために,テスト期間中に生成したペアを段階的に蓄積する可能性についても検討する。
私たちの実装はhttps://github.com/aiclaudev/DAT.comで公開されています。
関連論文リスト
- PromptRefine: Enhancing Few-Shot Performance on Low-Resource Indic Languages with Example Selection from Related Example Banks [57.86928556668849]
大規模言語モデル(LLM)は、近ごろ、コンテキスト内学習(ICL)を通じて、印象的な数ショットの学習能力を実証した。
ICLのパフォーマンスは、数発のデモの選択に大きく依存しており、最も最適な例の選択は永続的な研究課題である。
本稿では,低リソースのIndic言語におけるICLの性能向上を目的とした,新しい代替最小化手法であるPromptRefineを提案する。
論文 参考訳(メタデータ) (2024-12-07T17:51:31Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Effective Self-Mining of In-Context Examples for Unsupervised Machine Translation with LLMs [16.98133269527045]
機械翻訳(MT)における文脈内例の教師なし手法を提案する。
教師なし並列文のプールから最適なテキスト内例を選択するためのフィルタリング基準を導入する。
本研究は,MTの文脈内マイニングにおける教師なしアプローチの有効性を実証するものである。
論文 参考訳(メタデータ) (2024-10-14T18:47:04Z) - In-Context Example Selection via Similarity Search Improves Low-Resource Machine Translation [20.704153242284114]
機械翻訳(MT)は、テキスト内翻訳の例から恩恵を受けることが示されているタスクである。
サンプルの選択方法に関する体系的な研究は発表されておらず、類似性に基づく選択の有用性について混合の結果が報告されている。
文の埋め込み類似性は,特に低リソース言語方向においてMTを改善することができる。
論文 参考訳(メタデータ) (2024-08-01T09:07:32Z) - DAIL: Data Augmentation for In-Context Learning via Self-Paraphrase [37.68804898063595]
In-Context Learning (ICL)と事前訓練された大規模言語モデルを組み合わせることで、様々なNLPタスクにおいて有望な結果が得られた。
textbfData textbfAugmentation for textbfIn-Context textbfLearning (textbfDAIL)を提案する。
論文 参考訳(メタデータ) (2023-11-06T18:12:55Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Finding Support Examples for In-Context Learning [73.90376920653507]
本稿では,この課題を2段階に解決するためのfilter-thEN-Search法であるLENSを提案する。
まず、データセットをフィルタリングして、個別に情報的インコンテキストの例を得る。
そこで本研究では,反復的に改良し,選択したサンプル順列を評価可能な多様性誘導型サンプル探索を提案する。
論文 参考訳(メタデータ) (2023-02-27T06:32:45Z) - Prompting Large Language Model for Machine Translation: A Case Study [87.88120385000666]
我々は機械翻訳戦略の推進に関する体系的研究を行っている。
本稿では,プロンプトテンプレートと実演例選択の要因について検討する。
本稿では,モノリンガルデータの利用と,クロスリンガル,クロスドメイン,文-文書間伝達学習の実現可能性について検討する。
論文 参考訳(メタデータ) (2023-01-17T18:32:06Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - In-context Examples Selection for Machine Translation [101.50473468507697]
大規模生成モデルは、コンテキスト内学習を用いて、幅広い自然言語処理(NLP)タスクを実行するという印象的な能力を示している。
機械翻訳(MT)の場合、これらの例は、通常、開発データセットからランダムにサンプリングされ、評価セットと同じような分布を持つ。
テキスト内サンプルの翻訳品質とドメインが重要であり,1ショットノイズ非関連例が出力品質に破滅的な影響を及ぼす可能性が示唆された。
論文 参考訳(メタデータ) (2022-12-05T17:25:15Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。