Fugu-MT 論文翻訳(概要): Active Learning for Multilingual Semantic Parser

論文の概要: Active Learning for Multilingual Semantic Parser

arxiv url: http://arxiv.org/abs/2301.12920v3
Date: Thu, 13 Apr 2023 13:30:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-14 17:04:22.348070
Title: Active Learning for Multilingual Semantic Parser
Title（参考訳）: 多言語意味パーサのためのアクティブラーニング
Authors: Zhuang Li, Gholamreza Haffari
Abstract要約: 多言語意味解析(AL-MSP)のための最初の能動的学習手法を提案する。 AL-MSPは翻訳対象の既存のデータセットからサブセットのみを選択する。実験の結果,AL-MSPは理想的な選択法で翻訳コストを大幅に削減できることがわかった。
参考スコア（独自算出の注目度）: 56.089595973457016
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current multilingual semantic parsing (MSP) datasets are almost all collected by translating the utterances in the existing datasets from the resource-rich language to the target language. However, manual translation is costly. To reduce the translation effort, this paper proposes the first active learning procedure for MSP (AL-MSP). AL-MSP selects only a subset from the existing datasets to be translated. We also propose a novel selection method that prioritizes the examples diversifying the logical form structures with more lexical choices, and a novel hyperparameter tuning method that needs no extra annotation cost. Our experiments show that AL-MSP significantly reduces translation costs with ideal selection methods. Our selection method with proper hyperparameters yields better parsing performance than the other baselines on two multilingual datasets.
Abstract（参考訳）: 現在のマルチ言語セマンティックパーシング(MSP)データセットは、既存のデータセットの発話をリソース豊富な言語からターゲット言語に翻訳することで、ほぼすべて収集される。しかし、手作業による翻訳はコストがかかる。そこで本研究では,MSP (AL-MSP) のための最初の能動的学習手法を提案する。 AL-MSPは翻訳対象の既存のデータセットからサブセットのみを選択する。また,より語彙的な選択によって論理形式構造を多様化する例を優先する新しい選択法と,追加のアノテーションコストを必要としない新しいハイパーパラメータチューニング法を提案する。実験の結果,AL-MSPは理想的な選択法で翻訳コストを大幅に削減できることがわかった。提案手法は,2つの多言語データセットの他のベースラインよりも解析性能がよい。

関連論文リスト

LLaVA-NeuMT: Selective Layer-Neuron Modulation for Efficient Multilingual Multimodal Translation [12.51212639515934]
LLaVA-NeuMTは言語固有の表現と言語に依存しない表現を明示的にモデル化し、多言語干渉を緩和する新しいフレームワークである。提案手法は,異なる言語対の最も情報性の高い層を識別する層選択機構から成り立っている。我々はM3-Multi30KとM3-AmbigCapsデータセットの広範な実験を行い、LLaVA-NeuMTはモデルパラメータの40%しか微調整していないが、完全な微調整アプローチを超えていることを示した。
論文参考訳（メタデータ） (2025-07-25T04:23:24Z)
Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文参考訳（メタデータ） (2025-07-18T03:19:43Z)
Semantic Outlier Removal with Embedding Models and LLMs [0.45080838507508303]
我々は,不必要なテキストセグメントを識別・抽出するためのコスト効率のよい透明なSORE(Semantic Outlier removal)を紹介する。 SOREは、約LLM抽出精度をコストのごく一部で達成する。当社のシステムは現在本番環境にデプロイされており、複数の言語で毎日数百万のドキュメントを処理しています。
論文参考訳（メタデータ） (2025-06-19T23:06:12Z)
Cross-lingual Back-Parsing: Utterance Synthesis from Meaning Representation for Zero-Resource Semantic Parsing [6.074150063191985]
Cross-Lingual Back-Parsing(クロスリンガル・バック・パーシング)は、セマンティック・パーシングのためのクロスリンガル・トランスファーを強化するために設計された新しいデータ拡張手法である。提案手法は,ゼロリソース設定に挑戦する上で,言語間データ拡張を効果的に行う。
論文参考訳（メタデータ） (2024-10-01T08:53:38Z)
OFA: A Framework of Initializing Unseen Subword Embeddings for Efficient Large-scale Multilingual Continued Pretraining [49.213120730582354]
言語モデルをスクラッチから事前学習する代わりに、既存の事前学習言語モデル(PLM)を語彙拡張と継続事前学習を通じて新しい言語に適応させることがより効率的な方法である。我々は、新しいフレームワークを提案する: $textbfO$ne $textbfF$or $textbfA$ll。
論文参考訳（メタデータ） (2023-11-15T10:40:45Z)
Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文参考訳（メタデータ） (2023-07-09T04:52:31Z)
Parameter-Efficient Cross-lingual Transfer of Vision and Language Models via Translation-based Alignment [31.885608173448368]
CLIPのような事前訓練された視覚と言語モデルは、画像とテキストを英語のテキストに焦点を合わせることに顕著な成功を収めた。異なる言語間のパフォーマンスの格差は、不均一なリソース可用性のために観測されている。翻訳に基づくアライメント手法を用いて,多言語差を緩和するパラメータ効率のよい多言語間移動学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-02T14:09:02Z)
Beyond Triplet: Leveraging the Most Data for Multimodal Machine Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文参考訳（メタデータ） (2022-12-20T15:02:38Z)
Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文参考訳（メタデータ） (2021-09-09T03:48:35Z)
FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文参考訳（メタデータ） (2020-09-10T22:42:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。