Fugu-MT 論文翻訳(概要): IITK at SemEval-2024 Task 1: Contrastive Learning and Autoencoders for Semantic Textual Relatedness in Multilingual Texts

論文の概要: IITK at SemEval-2024 Task 1: Contrastive Learning and Autoencoders for Semantic Textual Relatedness in Multilingual Texts

arxiv url: http://arxiv.org/abs/2404.04513v1
Date: Sat, 6 Apr 2024 05:58:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-09 20:58:47.852159
Title: IITK at SemEval-2024 Task 1: Contrastive Learning and Autoencoders for Semantic Textual Relatedness in Multilingual Texts
Title（参考訳）: IITK at SemEval-2024 Task 1: Contrastive Learning and Autoencoders for Semantic Textual Relatedness in Multilingual Texts (英語)
Authors: Udvas Basak, Rajarshi Dutta, Shivam Pandey, Ashutosh Modi,
Abstract要約: 本稿では,SemEval-2024 Task 1: Semantic Textual Relatednessについて述べる。この課題は、14言語における文のペア間の関連度を自動的に検出することに焦点を当てている。
参考スコア（独自算出の注目度）: 4.78482610709922
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper describes our system developed for the SemEval-2024 Task 1: Semantic Textual Relatedness. The challenge is focused on automatically detecting the degree of relatedness between pairs of sentences for 14 languages including both high and low-resource Asian and African languages. Our team participated in two subtasks consisting of Track A: supervised and Track B: unsupervised. This paper focuses on a BERT-based contrastive learning and similarity metric based approach primarily for the supervised track while exploring autoencoders for the unsupervised track. It also aims on the creation of a bigram relatedness corpus using negative sampling strategy, thereby producing refined word embeddings.
Abstract（参考訳）: 本稿では,SemEval-2024 Task 1: Semantic Textual Relatednessについて述べる。この課題は、高資源と低リソースのアジアおよびアフリカ言語を含む14言語における文のペア間の関連性の度合いを自動的に検出することに焦点を当てている。我々のチームは、トラックA:教師なし、トラックB:教師なしの2つのサブタスクに参加した。本稿では,教師なしトラックのオートエンコーダを探索しながら,主に教師付きトラックに対して,BERTに基づくコントラスト学習と類似度メトリックに基づくアプローチに焦点を当てる。また、負のサンプリング戦略を用いた大文字関連コーパスの作成も目的とし、洗練された単語埋め込みを創出する。

関連論文リスト

LuxVeri at GenAI Detection Task 1: Inverse Perplexity Weighted Ensemble for Robust Detection of AI-Generated Text across English and Multilingual Contexts [0.8495482945981923]
本稿では,AI生成コンテンツの検出に関するコリング2025ワークショップのタスク1のために開発されたシステムについて述べる。提案手法では,各モデルの逆パープレキシティに応じて重みが割り当てられたモデルのアンサンブルを利用して,分類精度を向上させる。本研究は, 単言語と多言語の両方において, 機械によるテキスト検出の堅牢性を向上させるために, 逆パープレキシティ重み付けの有効性を示すものである。
論文参考訳（メタデータ） (2025-01-21T06:32:32Z)
GenAI Content Detection Task 1: English and Multilingual Machine-Generated Text Detection: AI vs. Human [71.42669028683741]
我々は,Coling 2025におけるGenAIワークショップの一環として,バイナリマシン生成テキスト検出における共有タスクを提案する。このタスクは、モノリンガル(英: Monolingual)とマルチリンガル(英: Multilingual)の2つのサブタスクから構成される。本稿では,データの包括的概要,結果の概要,参加システムの詳細な説明,提出内容の詳細な分析について述べる。
論文参考訳（メタデータ） (2025-01-19T11:11:55Z)
USTCCTSU at SemEval-2024 Task 1: Reducing Anisotropy for Cross-lingual Semantic Textual Relatedness Task [17.905282052666333]
言語間セマンティックテキスト関連性タスクは,言語間コミュニケーションやテキスト理解における課題に対処する重要な研究課題である。これは、機械翻訳、多言語情報検索、言語間テキスト理解といった下流タスクに不可欠な、異なる言語間のセマンティックな接続を確立するのに役立つ。当社のアプローチでは、スペインで2位、インドネシアで3位、そしてトップ10の複数のエントリーが、コンペティションのトラックCで行われます。
論文参考訳（メタデータ） (2024-11-28T08:40:14Z)
SemEval-2024 Task 8: Multidomain, Multimodel and Multilingual Machine-Generated Text Detection [68.858931667807]
Subtask Aは、テキストが人間によって書かれたか、機械によって生成されたかを決定するバイナリ分類タスクである。サブタスクBは、テキストの正確なソースを検出し、それが人間によって書かれたか、特定のLCMによって生成されたかを認識する。 Subtask Cは、著者が人間から機械へ遷移するテキスト内の変化点を特定することを目的としている。
論文参考訳（メタデータ） (2024-04-22T13:56:07Z)
PetKaz at SemEval-2024 Task 8: Can Linguistics Capture the Specifics of LLM-generated Text? [4.463184061618504]
我々はSemEval-2024タスク8「マルチジェネレータ、マルチドメイン、ブラックボックスマシン生成テキスト検出」を提出する。我々のアプローチは、RoBERTaベースからの埋め込みと多様性機能の組み合わせに依存し、再サンプリングされたトレーニングセットを使用する。その結果,本手法は未知のモデルや領域にまたがって一般化可能であり,精度は0.91であることがわかった。
論文参考訳（メタデータ） (2024-04-08T13:05:02Z)
AAdaM at SemEval-2024 Task 1: Augmentation and Adaptation for Multilingual Semantic Textual Relatedness [16.896143197472114]
本稿では,アフリカとアジアの言語に対するセマンティックテキスト関連性(SemEval-2024 Task 1: Semantic Textual Relatedness)について述べる。本稿では,限られたトレーニングデータの低リソース化問題に対処するために,機械翻訳によるデータ拡張を提案する。我々のシステムは、サブタスクA(教師付き学習)とサブタスクC(言語間の移動)の両方において、すべてのチームの中で最善を尽くします。
論文参考訳（メタデータ） (2024-04-01T21:21:15Z)
MasonTigers at SemEval-2024 Task 1: An Ensemble Approach for Semantic Textual Relatedness [5.91695168183101]
本稿では,SemEval-2024 Task 1 - Semantic Textual RelatednessのMasonTigersエントリについて述べる。このタスクには、教師なし(Track A)、教師なし(Track B)、14言語にわたる言語横断(Track C)アプローチが含まれる。我々のアプローチは、トラックAで11位から21位、トラックBで1位から8位、トラックCで5位から12位までランク付けした。
論文参考訳（メタデータ） (2024-03-22T06:47:42Z)
Translation-Enhanced Multilingual Text-to-Image Generation [61.41730893884428]
テキスト・ツー・イメージ・ジェネレーション(TTI)の研究は、現在でも主に英語に焦点を当てている。そこで本研究では,多言語TTIとニューラルマシン翻訳(NMT)のブートストラップmTTIシステムへの応用について検討する。我々は,mTTIフレームワーク内で多言語テキスト知識を重み付け,統合する新しいパラメータ効率アプローチであるEnsemble Adapter (EnsAd)を提案する。
論文参考訳（メタデータ） (2023-05-30T17:03:52Z)
Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文参考訳（メタデータ） (2023-03-20T09:13:27Z)
RuArg-2022: Argument Mining Evaluation [69.87149207721035]
本稿は、ロシア語テキストを扱う議論分析システムの最初のコンペティションの主催者の報告である。新型コロナウイルスの感染拡大に伴う3つの話題について、9,550文(ソーシャルメディア投稿記事)のコーパスを用意した。両タスクで第一位を獲得したシステムは、BERTアーキテクチャのNLI(Natural Language Inference)変種を使用した。
論文参考訳（メタデータ） (2022-06-18T17:13:37Z)
SemEval-2022 Task 2: Multilingual Idiomaticity Detection and Sentence Embedding [12.843166994677286]
本稿では,多言語性検出と文埋め込みにおける共通課題について述べる。 a) 文が慣用的表現を含むかどうかを識別することを目的とした二項分類と、(b) モデルが文脈における潜在的慣用的表現を適切に表現することを要求する意味的テキスト類似性に基づくタスクである。約100人の登録参加者が参加し、それぞれ650名と150名以上の応募を行った。
論文参考訳（メタデータ） (2022-04-21T12:20:52Z)
Unsupervised Bitext Mining and Translation via Self-trained Contextual Embeddings [51.47607125262885]
不整合テキストから機械翻訳(MT)のための擬似並列コーパスを作成するための教師なし手法について述べる。我々は多言語BERTを用いて、最寄りの検索のためのソースとターゲット文の埋め込みを作成し、自己学習によりモデルを適応する。 BUCC 2017 bitextマイニングタスクで並列文ペアを抽出し,F1スコアの最大24.5ポイント増加(絶対)を従来の教師なし手法と比較して観察することで,本手法の有効性を検証した。
論文参考訳（メタデータ） (2020-10-15T14:04:03Z)
Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文参考訳（メタデータ） (2020-04-28T11:27:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。