論文の概要: IITK at SemEval-2024 Task 1: Contrastive Learning and Autoencoders for Semantic Textual Relatedness in Multilingual Texts
- arxiv url: http://arxiv.org/abs/2404.04513v1
- Date: Sat, 6 Apr 2024 05:58:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 20:58:47.852159
- Title: IITK at SemEval-2024 Task 1: Contrastive Learning and Autoencoders for Semantic Textual Relatedness in Multilingual Texts
- Title(参考訳): IITK at SemEval-2024 Task 1: Contrastive Learning and Autoencoders for Semantic Textual Relatedness in Multilingual Texts (英語)
- Authors: Udvas Basak, Rajarshi Dutta, Shivam Pandey, Ashutosh Modi,
- Abstract要約: 本稿では,SemEval-2024 Task 1: Semantic Textual Relatednessについて述べる。
この課題は、14言語における文のペア間の関連度を自動的に検出することに焦点を当てている。
- 参考スコア(独自算出の注目度): 4.78482610709922
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper describes our system developed for the SemEval-2024 Task 1: Semantic Textual Relatedness. The challenge is focused on automatically detecting the degree of relatedness between pairs of sentences for 14 languages including both high and low-resource Asian and African languages. Our team participated in two subtasks consisting of Track A: supervised and Track B: unsupervised. This paper focuses on a BERT-based contrastive learning and similarity metric based approach primarily for the supervised track while exploring autoencoders for the unsupervised track. It also aims on the creation of a bigram relatedness corpus using negative sampling strategy, thereby producing refined word embeddings.
- Abstract(参考訳): 本稿では,SemEval-2024 Task 1: Semantic Textual Relatednessについて述べる。
この課題は、高資源と低リソースのアジアおよびアフリカ言語を含む14言語における文のペア間の関連性の度合いを自動的に検出することに焦点を当てている。
我々のチームは、トラックA:教師なし、トラックB:教師なしの2つのサブタスクに参加した。
本稿では,教師なしトラックのオートエンコーダを探索しながら,主に教師付きトラックに対して,BERTに基づくコントラスト学習と類似度メトリックに基づくアプローチに焦点を当てる。
また、負のサンプリング戦略を用いた大文字関連コーパスの作成も目的とし、洗練された単語埋め込みを創出する。
関連論文リスト
- SemEval-2024 Task 8: Multidomain, Multimodel and Multilingual Machine-Generated Text Detection [68.858931667807]
Subtask Aは、テキストが人間によって書かれたか、機械によって生成されたかを決定するバイナリ分類タスクである。
サブタスクBは、テキストの正確なソースを検出し、それが人間によって書かれたか、特定のLCMによって生成されたかを認識する。
Subtask Cは、著者が人間から機械へ遷移するテキスト内の変化点を特定することを目的としている。
論文 参考訳(メタデータ) (2024-04-22T13:56:07Z) - PetKaz at SemEval-2024 Task 8: Can Linguistics Capture the Specifics of LLM-generated Text? [4.463184061618504]
我々はSemEval-2024タスク8「マルチジェネレータ、マルチドメイン、ブラックボックスマシン生成テキスト検出」を提出する。
我々のアプローチは、RoBERTaベースからの埋め込みと多様性機能の組み合わせに依存し、再サンプリングされたトレーニングセットを使用する。
その結果,本手法は未知のモデルや領域にまたがって一般化可能であり,精度は0.91であることがわかった。
論文 参考訳(メタデータ) (2024-04-08T13:05:02Z) - AAdaM at SemEval-2024 Task 1: Augmentation and Adaptation for Multilingual Semantic Textual Relatedness [16.896143197472114]
本稿では,アフリカとアジアの言語に対するセマンティックテキスト関連性(SemEval-2024 Task 1: Semantic Textual Relatedness)について述べる。
本稿では,限られたトレーニングデータの低リソース化問題に対処するために,機械翻訳によるデータ拡張を提案する。
我々のシステムは、サブタスクA(教師付き学習)とサブタスクC(言語間の移動)の両方において、すべてのチームの中で最善を尽くします。
論文 参考訳(メタデータ) (2024-04-01T21:21:15Z) - MasonTigers at SemEval-2024 Task 1: An Ensemble Approach for Semantic Textual Relatedness [5.91695168183101]
本稿では,SemEval-2024 Task 1 - Semantic Textual RelatednessのMasonTigersエントリについて述べる。
このタスクには、教師なし(Track A)、教師なし(Track B)、14言語にわたる言語横断(Track C)アプローチが含まれる。
我々のアプローチは、トラックAで11位から21位、トラックBで1位から8位、トラックCで5位から12位までランク付けした。
論文 参考訳(メタデータ) (2024-03-22T06:47:42Z) - Translation-Enhanced Multilingual Text-to-Image Generation [61.41730893884428]
テキスト・ツー・イメージ・ジェネレーション(TTI)の研究は、現在でも主に英語に焦点を当てている。
そこで本研究では,多言語TTIとニューラルマシン翻訳(NMT)のブートストラップmTTIシステムへの応用について検討する。
我々は,mTTIフレームワーク内で多言語テキスト知識を重み付け,統合する新しいパラメータ効率アプローチであるEnsemble Adapter (EnsAd)を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:03:52Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - RuArg-2022: Argument Mining Evaluation [69.87149207721035]
本稿は、ロシア語テキストを扱う議論分析システムの最初のコンペティションの主催者の報告である。
新型コロナウイルスの感染拡大に伴う3つの話題について、9,550文(ソーシャルメディア投稿記事)のコーパスを用意した。
両タスクで第一位を獲得したシステムは、BERTアーキテクチャのNLI(Natural Language Inference)変種を使用した。
論文 参考訳(メタデータ) (2022-06-18T17:13:37Z) - SemEval-2022 Task 2: Multilingual Idiomaticity Detection and Sentence
Embedding [12.843166994677286]
本稿では,多言語性検出と文埋め込みにおける共通課題について述べる。
a) 文が慣用的表現を含むかどうかを識別することを目的とした二項分類と、(b) モデルが文脈における潜在的慣用的表現を適切に表現することを要求する意味的テキスト類似性に基づくタスクである。
約100人の登録参加者が参加し、それぞれ650名と150名以上の応募を行った。
論文 参考訳(メタデータ) (2022-04-21T12:20:52Z) - Unsupervised Bitext Mining and Translation via Self-trained Contextual
Embeddings [51.47607125262885]
不整合テキストから機械翻訳(MT)のための擬似並列コーパスを作成するための教師なし手法について述べる。
我々は多言語BERTを用いて、最寄りの検索のためのソースとターゲット文の埋め込みを作成し、自己学習によりモデルを適応する。
BUCC 2017 bitextマイニングタスクで並列文ペアを抽出し,F1スコアの最大24.5ポイント増加(絶対)を従来の教師なし手法と比較して観察することで,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-10-15T14:04:03Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。