論文の概要: SCOI: Syntax-augmented Coverage-based In-context Example Selection for Machine Translation
- arxiv url: http://arxiv.org/abs/2408.04872v1
- Date: Fri, 9 Aug 2024 05:25:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 16:38:47.679051
- Title: SCOI: Syntax-augmented Coverage-based In-context Example Selection for Machine Translation
- Title(参考訳): SCOI: 機械翻訳のための構文拡張被覆型インコンテキスト例選択
- Authors: Chenming Tang, Zhixiang Wang, Yunfang Wu,
- Abstract要約: そこで本研究では,機械翻訳(MT)における文脈内例の選択に統語的知識を導入する。
我々は、構文拡張されたコベレージベースのIn-context example selection (SCOI) という新しい戦略を提案する。
提案するSCOIは,すべての学習自由手法の中で,平均COMETスコアが最も高い。
- 参考スコア(独自算出の注目度): 13.87098305304058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning (ICL) greatly improves the performance of large language models (LLMs) on various down-stream tasks, where the improvement highly depends on the quality of demonstrations. In this work, we introduce syntactic knowledge to select better in-context examples for machine translation (MT). We propose a new strategy, namely Syntax-augmented COverage-based In-context example selection (SCOI), leveraging the deep syntactic structure beyond conventional word matching. Specifically, we measure the set-level syntactic coverage by computing the coverage of polynomial terms with the help of a simplified tree-to-polynomial algorithm, and lexical coverage using word overlap. Furthermore, we devise an alternate selection approach to combine both coverage measures, taking advantage of syntactic and lexical information. We conduct experiments with two multi-lingual LLMs on six translation directions. Empirical results show that our proposed SCOI obtains the highest average COMET score among all learning-free methods, indicating that combining syntactic and lexical coverage successfully helps to select better in-context examples for MT.
- Abstract(参考訳): In-context Learning (ICL) は、様々なダウンストリームタスクにおける大規模言語モデル(LLM)の性能を大幅に改善する。
そこで本研究では,機械翻訳(MT)における文脈内例の選択に統語的知識を導入する。
従来の単語マッチングを超越した深い構文構造を生かし,構文拡張型コベレージに基づく文脈内サンプル選択(SCOI)を提案する。
具体的には,単純なツリー・ツー・ポリーノミカル・アルゴリズムの助けを借りて,多項式項のカバレッジを計算し,単語重なりによる語彙的カバレッジを計測する。
さらに,構文情報と語彙情報を利用して,双方のカバレッジ対策を組み合わせるための代替選択手法を考案した。
我々は6つの翻訳方向で2つの多言語LLMを用いて実験を行う。
実験の結果,提案したSCOIは,すべての学習自由手法の中で平均COMETスコアが最も高い結果を得た。
関連論文リスト
- DeTriever: Decoder-representation-based Retriever for Improving NL2SQL In-Context Learning [19.93800175353809]
DeTrieverは、隠れた状態の重み付けを学習する新しいデモ検索フレームワークである。
提案手法は1ショットNL2タスクにおける最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2024-06-12T06:33:54Z) - Efficiently Exploring Large Language Models for Document-Level Machine Translation with In-context Learning [38.89119606657543]
文レベルの翻訳とは対照的に、文脈内学習に基づく大規模言語モデル(LLM)による文書レベルの翻訳(DOCMT)は2つの大きな課題に直面している。
本研究では,文脈認識型プロンプト法(CAP)を提案する。
様々なDOCMTタスクに対して広範な実験を行い,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-06-11T09:11:17Z) - ParaICL: Towards Robust Parallel In-Context Learning [74.38022919598443]
大規模言語モデル(LLM)が自然言語処理の標準となっている。
インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。
パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-31T05:56:15Z) - Going Beyond Word Matching: Syntax Improves In-context Example Selection for Machine Translation [13.87098305304058]
In-context Learning (ICL) は、大規模言語モデル(LLM)の時代におけるトレンドの促進戦略である。
機械翻訳(MT)のテキスト内サンプル選択は、表面的な単語レベルの特徴に重点を置いている。
本稿では,依存木間の構文的類似性を計算し,構文に基づくMTの例選択手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:13:34Z) - Ungrammatical-syntax-based In-context Example Selection for Grammatical Error Correction [8.655807096424732]
本稿では,文法的誤り訂正のための非文法的シンタクスに基づく文内例選択手法を提案する。
具体的には,多種多様なアルゴリズムを用いた構文構造に基づいて文の類似度を測定し,テスト入力に最もよく似た不規則な構文を共有する最適なICL例を同定する。
論文 参考訳(メタデータ) (2024-03-28T10:05:57Z) - Meta-Task Prompting Elicits Embeddings from Large Language Models [54.757445048329735]
本稿では,新しい教師なしテキスト埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを紹介する。
モデル微調整を必要とせずに,大規模言語モデルから高品質な文埋め込みを生成する。
提案法は,多種多様なシナリオにまたがって生成を組み込む汎用的で資源効率のよい手法を提供する。
論文 参考訳(メタデータ) (2024-02-28T16:35:52Z) - Sequence Shortening for Context-Aware Machine Translation [5.803309695504831]
マルチエンコーダアーキテクチャの特殊な場合において,コントラストデータセットの精度が向上することを示す。
遅延グループと遅延選択という2つの新しい手法を導入し、ネットワークはトークンをグループ化するか、コンテキストとしてキャッシュされるトークンを選択する。
論文 参考訳(メタデータ) (2024-02-02T13:55:37Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - Retrofitting Multilingual Sentence Embeddings with Abstract Meaning
Representation [70.58243648754507]
抽象的意味表現(AMR)を用いた既存の多言語文の埋め込みを改善する新しい手法を提案する。
原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。
実験結果から,多言語文をAMRで埋め込むと,意味的類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-10-18T11:37:36Z) - A Comparative Study of Lexical Substitution Approaches based on Neural
Language Models [117.96628873753123]
本稿では,一般的なニューラル言語とマスキング言語モデルの大規模比較研究について述べる。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによって達成された既に競合する結果をさらに改善できることを示す。
論文 参考訳(メタデータ) (2020-05-29T18:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。