論文の概要: SCOI: Syntax-augmented Coverage-based In-context Example Selection for Machine Translation
- arxiv url: http://arxiv.org/abs/2408.04872v1
- Date: Fri, 9 Aug 2024 05:25:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 16:38:47.679051
- Title: SCOI: Syntax-augmented Coverage-based In-context Example Selection for Machine Translation
- Title(参考訳): SCOI: 機械翻訳のための構文拡張被覆型インコンテキスト例選択
- Authors: Chenming Tang, Zhixiang Wang, Yunfang Wu,
- Abstract要約: そこで本研究では,機械翻訳(MT)における文脈内例の選択に統語的知識を導入する。
我々は、構文拡張されたコベレージベースのIn-context example selection (SCOI) という新しい戦略を提案する。
提案するSCOIは,すべての学習自由手法の中で,平均COMETスコアが最も高い。
- 参考スコア(独自算出の注目度): 13.87098305304058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning (ICL) greatly improves the performance of large language models (LLMs) on various down-stream tasks, where the improvement highly depends on the quality of demonstrations. In this work, we introduce syntactic knowledge to select better in-context examples for machine translation (MT). We propose a new strategy, namely Syntax-augmented COverage-based In-context example selection (SCOI), leveraging the deep syntactic structure beyond conventional word matching. Specifically, we measure the set-level syntactic coverage by computing the coverage of polynomial terms with the help of a simplified tree-to-polynomial algorithm, and lexical coverage using word overlap. Furthermore, we devise an alternate selection approach to combine both coverage measures, taking advantage of syntactic and lexical information. We conduct experiments with two multi-lingual LLMs on six translation directions. Empirical results show that our proposed SCOI obtains the highest average COMET score among all learning-free methods, indicating that combining syntactic and lexical coverage successfully helps to select better in-context examples for MT.
- Abstract(参考訳): In-context Learning (ICL) は、様々なダウンストリームタスクにおける大規模言語モデル(LLM)の性能を大幅に改善する。
そこで本研究では,機械翻訳(MT)における文脈内例の選択に統語的知識を導入する。
従来の単語マッチングを超越した深い構文構造を生かし,構文拡張型コベレージに基づく文脈内サンプル選択(SCOI)を提案する。
具体的には,単純なツリー・ツー・ポリーノミカル・アルゴリズムの助けを借りて,多項式項のカバレッジを計算し,単語重なりによる語彙的カバレッジを計測する。
さらに,構文情報と語彙情報を利用して,双方のカバレッジ対策を組み合わせるための代替選択手法を考案した。
我々は6つの翻訳方向で2つの多言語LLMを用いて実験を行う。
実験の結果,提案したSCOIは,すべての学習自由手法の中で平均COMETスコアが最も高い結果を得た。
関連論文リスト
- Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z) - In-Context Example Selection via Similarity Search Improves Low-Resource Machine Translation [20.704153242284114]
機械翻訳(MT)は、テキスト内翻訳の例から恩恵を受けることが示されているタスクである。
サンプルの選択方法に関する体系的な研究は発表されておらず、類似性に基づく選択の有用性について混合の結果が報告されている。
文の埋め込み類似性は,特に低リソース言語方向においてMTを改善することができる。
論文 参考訳(メタデータ) (2024-08-01T09:07:32Z) - DeTriever: Decoder-representation-based Retriever for Improving NL2SQL In-Context Learning [19.93800175353809]
DeTrieverは、隠れた状態の重み付けを学習する新しいデモ検索フレームワークである。
提案手法は1ショットNL2タスクにおける最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2024-06-12T06:33:54Z) - Efficiently Exploring Large Language Models for Document-Level Machine Translation with In-context Learning [38.89119606657543]
文レベルの翻訳とは対照的に、文脈内学習に基づく大規模言語モデル(LLM)による文書レベルの翻訳(DOCMT)は2つの大きな課題に直面している。
本研究では,文脈認識型プロンプト法(CAP)を提案する。
様々なDOCMTタスクに対して広範な実験を行い,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-06-11T09:11:17Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - ParaICL: Towards Robust Parallel In-Context Learning [74.38022919598443]
大規模言語モデル(LLM)が自然言語処理の標準となっている。
インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。
パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-31T05:56:15Z) - Going Beyond Word Matching: Syntax Improves In-context Example Selection for Machine Translation [13.87098305304058]
In-context Learning (ICL) は、大規模言語モデル(LLM)の時代におけるトレンドの促進戦略である。
機械翻訳(MT)のテキスト内サンプル選択は、表面的な単語レベルの特徴に重点を置いている。
本稿では,依存木間の構文的類似性を計算し,構文に基づくMTの例選択手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:13:34Z) - Ungrammatical-syntax-based In-context Example Selection for Grammatical Error Correction [8.655807096424732]
本稿では,文法的誤り訂正のための非文法的シンタクスに基づく文内例選択手法を提案する。
具体的には,多種多様なアルゴリズムを用いた構文構造に基づいて文の類似度を測定し,テスト入力に最もよく似た不規則な構文を共有する最適なICL例を同定する。
論文 参考訳(メタデータ) (2024-03-28T10:05:57Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。