Fugu-MT 論文翻訳(概要): UMBCLU at SemEval-2024 Task 1A and 1C: Semantic Textual Relatedness with and without machine translation

論文の概要: UMBCLU at SemEval-2024 Task 1A and 1C: Semantic Textual Relatedness with and without machine translation

arxiv url: http://arxiv.org/abs/2402.12730v1
Date: Tue, 20 Feb 2024 05:46:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 17:00:20.476367
Title: UMBCLU at SemEval-2024 Task 1A and 1C: Semantic Textual Relatedness with and without machine translation
Title（参考訳）: semeval-2024タスク1aと1cにおけるumbclu : 機械翻訳の有無による意味的テキスト関連性
Authors: Shubhashis Roy Dipta and Sai Vallurupalli
Abstract要約: 本稿では,SemEval-2024 Task 1, "Semantic Textual Relatedness for African and Asian Languages"のために開発したシステムについて述べる。このタスクの目的は、対象言語の2つの文間の意味的テキスト関連性を識別できるモデルを構築することである。
参考スコア（独自算出の注目度）: 0.10878040851638002
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper describes the system we developed for SemEval-2024 Task 1, "Semantic Textual Relatedness for African and Asian Languages." The aim of the task is to build a model that can identify semantic textual relatedness (STR) between two sentences of a target language belonging to a collection of African and Asian languages. We participated in Subtasks A and C and explored supervised and cross-lingual training leveraging large language models (LLMs). Pre-trained large language models have been extensively used for machine translation and semantic similarity. Using a combination of machine translation and sentence embedding LLMs, we developed a unified STR model, TranSem, for subtask A and fine-tuned the T5 family of models on the STR data, FineSem, for use in subtask C. Our model results for 7 languages in subtask A were better than the official baseline for 3 languages and on par with the baseline for the remaining 4 languages. Our model results for the 12 languages in subtask C resulted in 1st place for Africaans, 2nd place for Indonesian, and 3rd place for English with low performance for the remaining 9 languages.
Abstract（参考訳）: 本稿では,SemEval-2024 Task 1, "Semantic Textual Relatedness for African and Asian Languages"のために開発したシステムについて述べる。このタスクの目的は、アフリカとアジアの言語の集合に属する対象言語の2つの文間の意味的テクスト関係性(str)を識別できるモデルを構築することである。我々はSubtasks A と C に参加し,大規模言語モデル(LLM)を活用した教師付き言語間訓練を行った。事前訓練された大きな言語モデルは機械翻訳や意味的類似性に広く使われている。機械翻訳と文埋め込み LLM の組み合わせを用いて,サブタスクAのための統一STRモデルであるTranSemを開発し,サブタスクCにおけるSTRデータに基づくT5モデルの細調整を行った。その結果,サブタスクcの12言語では,アフリカ人では1位,インドネシアでは2位,英語では3位,残りの9言語ではパフォーマンスが低かった。

関連論文リスト

Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文参考訳（メタデータ） (2025-07-18T03:19:43Z)
Making LLMs Better Many-to-Many Speech-to-Text Translators with Curriculum Learning [32.883836078329665]
MLLM(Multimodal Large Language Models)は、音声テキスト翻訳(S2TT)タスクにおいて大きな成功を収めている。本稿では,大規模言語モデルの機械翻訳機能を活用し,S2TTタスクに適応する3段階のカリキュラム学習戦略を提案する。実験結果から,提案手法は15時間14ドルの言語対で最先端の平均性能を実現することが示された。
論文参考訳（メタデータ） (2024-09-29T01:48:09Z)
Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文参考訳（メタデータ） (2024-06-28T08:59:24Z)
Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
既存の手法では、視覚エンコーダを教師付き微調整(SFT)を介してMLLM(Multimodal Large Language Models)と整列させるのが一般的である。言語レベルでの視覚的トークンアライメントにテキストガイダンスを活用する新しいアプローチであるPARROTを提案する。我々は6言語、15カテゴリ、12,000の質問からなる新しいベンチマークであるMassive Multilingual Multimodal Benchmark (MMMB)を紹介する。
論文参考訳（メタデータ） (2024-06-04T17:56:28Z)
How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。 LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文参考訳（メタデータ） (2024-02-29T02:55:26Z)
LAMPAT: Low-Rank Adaption for Multilingual Paraphrasing Using Adversarial Training [19.173992333194683]
パラフレーズ(英: Paraphrase)とは、異なる単語や文構造を用いて同じ意味を伝えるテキストである。これまでの研究は機械翻訳の知識を活用し、ゼロショット機械翻訳によるパラフレーズを同じ言語で生成してきた。単言語データセットが人間に似た多文を生成するのに十分である最初の教師なし多言語パラフレーズモデル LAMPAT を提案する。
論文参考訳（メタデータ） (2024-01-09T04:19:16Z)
TaCo: Enhancing Cross-Lingual Transfer for Low-Resource Languages in LLMs through Translation-Assisted Chain-of-Thought Processes [9.254047358707014]
本稿では,Alpaca-52K,Dolly-15K,Vicuna Benchmarkを132言語に翻訳する多言語インストラクション・チューニングデータセット(MITS)を紹介する。次に,emphTaCo: Translation-Assisted Cross-Lingualityという新たな手法を提案する。提案手法は,Vicuna Benchmark データセットの低リソース言語に対して 82% のスコアで GPT-4 を圧縮し,命令チューニングと比較して性能を2倍にすることを示す。
論文参考訳（メタデータ） (2023-11-17T06:55:32Z)
Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文参考訳（メタデータ） (2023-10-31T08:09:20Z)
Efficiently Aligned Cross-Lingual Transfer Learning for Conversational Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文参考訳（メタデータ） (2023-04-03T18:46:01Z)
Language-Aware Multilingual Machine Translation with Self-Supervised Learning [13.250011906361273]
多言語機械翻訳(MMT)は言語間変換の利点があるが、マルチタスク最適化の問題である。自己教師付き学習アプローチは,MTタスクの補完タスクとして翻訳性能を向上させることで,有望であることを示す。本稿では,エンコーダとデコーダの両方に単一言語データを同時に記述することで,MTタスクと協調学習を行う,新しい単純なSSLタスクを提案する。
論文参考訳（メタデータ） (2023-02-10T01:34:24Z)
LVP-M3: Language-aware Visual Prompt for Multilingual Multimodal Machine Translation [94.33019040320507]
マルチモーダル機械翻訳(MMT)は、視覚的特徴を持つテキストのみの翻訳を強化することに焦点を当てている。最近の進歩は、各言語ペアごとに別々のモデルをトレーニングすることに苦慮している。 7つの言語をカバーする2つのMultilingual MMTベンチマークデータセットを確立することで,Multilingual MMTタスクを提案する。
論文参考訳（メタデータ） (2022-10-19T12:21:39Z)
Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3～4%の性能評価を行った。
論文参考訳（メタデータ） (2020-04-09T01:03:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。