論文の概要: In-context Example Selection for Machine Translation Using Multiple
Features
- arxiv url: http://arxiv.org/abs/2305.14105v1
- Date: Tue, 23 May 2023 14:26:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 15:43:27.022047
- Title: In-context Example Selection for Machine Translation Using Multiple
Features
- Title(参考訳): 複数特徴量を用いた機械翻訳のためのテキスト内例選択
- Authors: Aswanth Kumar and Anoop Kunchukuttan and Ratish Puduppully and Raj
Dabre
- Abstract要約: 本稿では, 異なる特徴を組み合わせ, サンプル選択に影響を及ぼすフレームワークを提案する。
翻訳品質を最大化するために、複数の特徴に基づいてサンプルを選択する回帰関数を学習する。
提案手法を用いることで,BM25検索ベースラインに対する平均2.5 COMET点の精度が向上することを確認した。
- 参考スコア(独自算出の注目度): 13.649930597681053
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models have demonstrated the capability to perform well on
many NLP tasks when the input is prompted with a few examples (in-context
learning) including machine translation, which is the focus of this work. The
quality of translation depends on various features of the selected examples,
such as their quality and relevance. However, previous work has predominantly
focused on individual features for example selection. We propose a general
framework for combining different features influencing example selection. We
learn a regression function that selects examples based on multiple features in
order to maximize the translation quality. On multiple language pairs and
language models, we show that our example selection method significantly
outperforms random selection as well as strong single-factor baselines reported
in the literature. Using our example selection method, we see an improvement of
over 2.5 COMET points on average with respect to a strong BM25 retrieval-based
baseline.
- Abstract(参考訳): 大規模な言語モデルでは、入力がいくつかの例(コンテキスト内学習)で促されると、多くのnlpタスクでうまく機能する能力が実証されている。
翻訳の質は、その品質や関連性など、選択された例の様々な特徴に依存する。
しかしながら、以前の作業は、例えば選択など、個々の機能に重点を置いてきた。
サンプル選択に影響を及ぼす異なる特徴を組み合わせるための汎用フレームワークを提案する。
翻訳品質を最大化するために、複数の特徴に基づいてサンプルを選択する回帰関数を学習する。
複数の言語ペアと言語モデルを用いて,本論文で報告した強い単一要素ベースラインに加えて,サンプル選択法がランダム選択を著しく上回ることを示す。
提案手法を用いることで,BM25検索ベースラインに対する平均2.5 COMET点の精度が向上することを確認した。
関連論文リスト
- Depicting Beyond Scores: Advancing Image Quality Assessment through
Multi-modal Language Models [29.87548490316521]
本稿では,従来のスコアベース手法の制約を克服するDepicted Image Quality Assessment法(DepictQA)を提案する。
DepictQAは、マルチモーダル大言語モデル(MLLM)を活用することで、画像品質の詳細な、言語ベース、人間ライクな評価を可能にする
本研究は,非参照アプリケーションにおける全参照データセットの有用性を実証し,言語ベースのIQA手法が個人の好みに合わせてカスタマイズできる可能性を示唆している。
論文 参考訳(メタデータ) (2023-12-14T14:10:02Z) - To token or not to token: A Comparative Study of Text Representations
for Cross-Lingual Transfer [23.777874316083984]
ゼロショットと少数ショットの両方の評価を重み付けして表現できるスコアリング言語クオシアン計量を提案する。
解析の結果,言語が密接に関連し,視覚的に類似したスクリプトを共有する場合,画像ベースモデルは言語間移動に優れることがわかった。
単語関係が重要な役割を果たす依存性解析タスクでは、キャラクタレベルに焦点を当てたモデルが他よりも優れています。
論文 参考訳(メタデータ) (2023-10-12T06:59:10Z) - Learning to Retrieve In-Context Examples for Large Language Models [69.9707552694766]
大規模言語モデル(LLM)は、文脈内で学習する能力を示している。
文脈内学習の有効性は、選択した例の品質に大きく依存する。
高品質なインコンテキストの例を識別可能な高密度検索を反復的に学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-14T05:23:08Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - In-context Examples Selection for Machine Translation [101.50473468507697]
大規模生成モデルは、コンテキスト内学習を用いて、幅広い自然言語処理(NLP)タスクを実行するという印象的な能力を示している。
機械翻訳(MT)の場合、これらの例は、通常、開発データセットからランダムにサンプリングされ、評価セットと同じような分布を持つ。
テキスト内サンプルの翻訳品質とドメインが重要であり,1ショットノイズ非関連例が出力品質に破滅的な影響を及ぼす可能性が示唆された。
論文 参考訳(メタデータ) (2022-12-05T17:25:15Z) - QAmeleon: Multilingual QA with Only 5 Examples [71.80611036543633]
数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。
我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。
言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
論文 参考訳(メタデータ) (2022-11-15T16:14:39Z) - Generative Language Models for Paragraph-Level Question Generation [79.31199020420827]
強力な生成モデルが質問生成(QG)の最近の進歩につながっている
標準化された資源が存在しないため,QG研究の進歩を測定することは困難である。
我々はQGのベンチマークであるQG-Benchを導入し、既存のQGデータセットを標準QG設定に変換することで、既存の質問応答データセットを統一する。
論文 参考訳(メタデータ) (2022-10-08T10:24:39Z) - Multilingual Mix: Example Interpolation Improves Multilingual Neural
Machine Translation [45.77509642452541]
インスタンスレベルで言語ペアを融合するために,多言語クロスオーバーエンコーダデコーダ(mXEncDec)を導入する。
提案手法は,言語間の入力空間と出力空間の共有を促進するために,異なる言語ペアのインスタンスを共同でクロスオーバー例に補間する。
論文 参考訳(メタデータ) (2022-03-15T03:56:22Z) - True Few-Shot Learning with Language Models [78.42578316883271]
ホールドアウト例が利用できない場合, LMの少数ショット能力を評価する。
以上の結果から,先行研究はLMの真少ショット能力を大幅に過大評価していたことが示唆された。
論文 参考訳(メタデータ) (2021-05-24T17:55:51Z) - Ensemble-based Transfer Learning for Low-resource Machine Translation
Quality Estimation [1.7188280334580195]
第5回機械翻訳会議(WMT20)の文レベルQE共有タスクに焦点を当てます。
このようなQEデータ不足の課題を克服するために、トランスファーラーニングを備えたアンサンブルベースの予測器推定QEモデルを提案する。
個々の言語で事前学習されたモデルと異なるレベルの並列学習コーパスと、ピアソンの相関値0.298とを組み合わせたアンサンブルモデルにおいて、最も優れた性能を実現する。
論文 参考訳(メタデータ) (2021-05-17T06:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。