Fugu-MT 論文翻訳(概要): Evaluating Inter-Bilingual Semantic Parsing for Indian Languages

論文の概要: Evaluating Inter-Bilingual Semantic Parsing for Indian Languages

arxiv url: http://arxiv.org/abs/2304.13005v2
Date: Mon, 5 Jun 2023 15:55:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-07 01:47:27.789165
Title: Evaluating Inter-Bilingual Semantic Parsing for Indian Languages
Title（参考訳）: インド言語におけるバイリンガル・セマンティック・パーシングの評価
Authors: Divyanshu Aggarwal, Vivek Gupta, Anoop Kunchukuttan
Abstract要約: 本研究では,11の異なるインド言語を対象とした言語間セマンティック解析データセットIE-SEMPARSEを提案する。本稿では,提案課題の実用性を強調し,既存の多言語Seq2seqモデルを複数の列車試験戦略で評価する。
参考スコア（独自算出の注目度）: 9.838755823660147
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite significant progress in Natural Language Generation for Indian languages (IndicNLP), there is a lack of datasets around complex structured tasks such as semantic parsing. One reason for this imminent gap is the complexity of the logical form, which makes English to multilingual translation difficult. The process involves alignment of logical forms, intents and slots with translated unstructured utterance. To address this, we propose an Inter-bilingual Seq2seq Semantic parsing dataset IE-SEMPARSE for 11 distinct Indian languages. We highlight the proposed task's practicality, and evaluate existing multilingual seq2seq models across several train-test strategies. Our experiment reveals a high correlation across performance of original multilingual semantic parsing datasets (such as mTOP, multilingual TOP and multiATIS++) and our proposed IE-SEMPARSE suite.
Abstract（参考訳）: インド語の自然言語生成(IndicNLP)の進歩にもかかわらず、意味解析のような複雑な構造化タスクに関するデータセットが不足している。この差し迫ったギャップの1つは論理形式の複雑さであり、英語から多言語への翻訳が難しい。このプロセスでは、論理形式、意図、スロットを翻訳された非構造的発話とアライメントする。そこで本研究では,11の異なるインド言語を対象としたセマンティック解析データセットIE-SEMPARSEを提案する。本稿では,提案課題の実用性を強調し,既存の多言語Seq2seqモデルを複数の列車試験戦略で評価する。実験の結果,mTOP, Multilingual TOP, multiATIS++ など) と提案した IE-SEMPARSE スイートの性能に高い相関関係が認められた。

関連論文リスト

IndicSQuAD: A Comprehensive Multilingual Question Answering Dataset for Indic Languages [0.4194295877935868]
IndicSQuADは9つの主要なIndic言語をカバーする包括的多言語抽出QAデータセットである。 IndicSQuADは、各言語に対する広範なトレーニング、検証、テストセットを含む。言語固有の単言語BERTモデルと多言語 MuRIL-BERT を用いたベースライン性能の評価を行った。
論文参考訳（メタデータ） (2025-05-06T16:42:54Z)
MultiTEND: A Multilingual Benchmark for Natural Language to NoSQL Query Translation [6.142748564599452]
本稿では,自然言語によるクエリ生成のためのマルチ言語ベンチマークとして,MultiTENDを紹介する。自然言語を様々な言語構造にまたがるクエリに翻訳する際の課題を分析する。並列リンクプロセスを通じてクエリ生成ギャップに多言語入力をブリッジする新しいフレームワークであるMultiLinkを紹介する。
論文参考訳（メタデータ） (2025-02-16T07:12:47Z)
Exploring syntactic information in sentence embeddings through multilingual subject-verb agreement [1.4335183427838039]
我々は,特定の特性を持つ大規模でキュレートされた合成データを開発するためのアプローチを採っている。我々は、ブラックバード言語行列(Blackbird Language Matrices)と呼ばれる新しい複数選択タスクとデータセットを使用して、特定の文法構造現象に焦点を当てる。多言語テキストを一貫した方法で訓練したにもかかわらず、多言語事前学習言語モデルには言語固有の違いがあることが示される。
論文参考訳（メタデータ） (2024-09-10T14:58:55Z)
Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
既存の手法では、視覚エンコーダを教師付き微調整(SFT)を介してMLLM(Multimodal Large Language Models)と整列させるのが一般的である。言語レベルでの視覚的トークンアライメントにテキストガイダンスを活用する新しいアプローチであるPARROTを提案する。我々は6言語、15カテゴリ、12,000の質問からなる新しいベンチマークであるMassive Multilingual Multimodal Benchmark (MMMB)を紹介する。
論文参考訳（メタデータ） (2024-06-04T17:56:28Z)
Multi3WOZ: A Multilingual, Multi-Domain, Multi-Parallel Dataset for Training and Evaluating Culturally Adapted Task-Oriented Dialog Systems [64.40789703661987]
Multi3WOZは、新しいマルチ言語、マルチドメイン、マルチ並列ToDデータセットである。大規模で、4つの言語で文化的に適応したダイアログを提供する。最終データセットを生成する複雑なボトムアップデータ収集プロセスについて述べる。
論文参考訳（メタデータ） (2023-07-26T08:29:42Z)
Multilingual Entity and Relation Extraction from Unified to Language-specific Training [29.778332361215636]
エンティティと関係抽出タスクの既存のアプローチは、主に英語のコーパスに焦点を当て、他の言語を無視している。言語干渉を軽減するために,2段階の多言語学習手法と,Multilingual Entity and Relation extract framework (mERE) と呼ばれるジョイントモデルを提案する。本手法はモノリンガル法と多言語ベースライン法の両方に優れる。
論文参考訳（メタデータ） (2023-01-11T12:26:53Z)
MultiSpider: Towards Benchmarking Multilingual Text-to-SQL Semantic Parsing [48.216386761482525]
英語、ドイツ語、フランス語、スペイン語、日本語、中国語、ベトナム語)をカバーする最大多言語テキストスキーマデータセットであるMultiSpiderを提案する。 3つの典型的な設定(ゼロショット、モノリンガル、マルチリンガル)の下での実験結果から、非英語言語では6.1%の精度の低下が見られる。また、単純なフレームワーク拡張フレームワークであるSAVe(Augmentation-with-Verification)を提案する。これは、全体的なパフォーマンスを約1.8%向上させ、言語間の29.5%のパフォーマンスギャップを埋める。
論文参考訳（メタデータ） (2022-12-27T13:58:30Z)
Advancing Multilingual Pre-training: TRIP Triangular Document-level Pre-training for Multilingual Language Models [107.83158521848372]
我々は,従来のモノリンガルおよびバイリンガルの目的を,グラフト法と呼ばれる新しい手法で三言語的目的に加速する分野において,最初のテキストbfTriangular Document-level textbfPre-training(textbfTRIP)を提案する。 TRIPは、3つの多言語文書レベルの機械翻訳ベンチマークと1つの言語間抽象的な要約ベンチマークで、最大3.11d-BLEU点と8.9ROUGE-L点の一貫性のある改善を含む、強力なSOTAスコアを達成している。
論文参考訳（メタデータ） (2022-12-15T12:14:25Z)
Multi2WOZ: A Robust Multilingual Dataset and Conversational Pretraining for Task-Oriented Dialog [67.20796950016735]
Multi2WOZデータセットは、中国語、ドイツ語、アラビア語、ロシア語の4つの言語にまたがる。本稿では,任意の下流TODタスクに対する言語間移動を容易にすることを目的とした,事前学習言語モデル(PrLM)の多言語会話特化のための新しいフレームワークを提案する。実験の結果,目標言語における(I)会話の特殊化と,(II)具体的なTODタスクのための少数ショット転送の組み合わせが,ほとんどの場合,最高の性能を示すことがわかった。
論文参考訳（メタデータ） (2022-05-20T18:35:38Z)
A Data Bootstrapping Recipe for Low Resource Multilingual Relation Classification [38.83366564843953]
IndoREは21Kのエンティティと3つのインド語と英語でタグ付けされた金の文を持つデータセットである。まず,多言語BERT (mBERT) ベースのシステムから始める。我々は、高価な金のインスタンスと翻訳された'銀のインスタンスと整合した'銀のインスタンスとの精度のトレードオフについて検討する。
論文参考訳（メタデータ） (2021-10-18T18:40:46Z)
Translate & Fill: Improving Zero-Shot Multilingual Semantic Parsing with Synthetic Data [2.225882303328135]
多言語セマンティックパーシングタスクのための銀のトレーニングデータを生成するための新しいTranslate-and-Fill(TaF)手法を提案する。 3つの多言語意味解析データセットの実験結果は、TaFによるデータ拡張が類似システムと競合する精度に達することを示している。
論文参考訳（メタデータ） (2021-09-09T14:51:11Z)
AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文参考訳（メタデータ） (2021-04-17T20:23:45Z)
VECO: Variable and Flexible Cross-lingual Pre-training for Language Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文参考訳（メタデータ） (2020-10-30T03:41:38Z)
FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文参考訳（メタデータ） (2020-09-10T22:42:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。