Fugu-MT 論文翻訳(概要): Using Deep Mixture-of-Experts to Detect Word Meaning Shift for TempoWiC

論文の概要: Using Deep Mixture-of-Experts to Detect Word Meaning Shift for TempoWiC

arxiv url: http://arxiv.org/abs/2211.03466v1
Date: Mon, 7 Nov 2022 11:28:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-08 16:53:26.092068
Title: Using Deep Mixture-of-Experts to Detect Word Meaning Shift for TempoWiC
Title（参考訳）: TempoWiCにおける単語意味変化検出のための深層混合手法
Authors: Ze Chen, Kangxu Wang, Zijian Cai, Jiewen Zheng, Jiarong He, Max Gao, Jason Zhang
Abstract要約: 本稿では、マクロF1スコア77.05%のTempoWiCタスクへのdma提出について述べる。さらに改良するために,Mixture-of-Experts (MoE) アプローチを用いてPOS情報と単語意味表現を統合する。
参考スコア（独自算出の注目度）: 0.9543943371833467
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper mainly describes the dma submission to the TempoWiC task, which achieves a macro-F1 score of 77.05% and attains the first place in this task. We first explore the impact of different pre-trained language models. Then we adopt data cleaning, data augmentation, and adversarial training strategies to enhance the model generalization and robustness. For further improvement, we integrate POS information and word semantic representation using a Mixture-of-Experts (MoE) approach. The experimental results show that MoE can overcome the feature overuse issue and combine the context, POS, and word semantic features well. Additionally, we use a model ensemble method for the final prediction, which has been proven effective by many research works.
Abstract（参考訳）: 本稿では,マクロf1スコア77.05%を達成し,この課題において第1位となるdmaのテンポジックタスクへの提出について述べる。まず,さまざまな事前学習された言語モデルの影響について検討する。次に,モデルの一般化と堅牢性を高めるために,データのクリーニング,データ拡張,敵対的トレーニング戦略を採用する。さらに改良するために、Mixture-of-Experts (MoE) アプローチを用いてPOS情報と単語意味表現を統合する。実験の結果,MoEは機能の過剰使用を克服し,コンテキスト,POS,単語の意味的特徴をうまく組み合わせることができることがわかった。さらに, モデルアンサンブル法を用いて最終予測を行い, 多くの研究で有効であることが証明されている。

関連論文リスト

When Does Metadata Conditioning (NOT) Work for Language Model Pre-Training? A Study with Context-Free Grammars [34.80529788630565]
潜在意味論は、言語モデルのパフォーマンスを決定する重要な特性の1つです。この機能を呼び出すための便利なアプローチの1つは、事前トレーニングデータのテキストの開始時にメタデータをプリペンドすることである。メタデータを用いたトレーニングは、与えられたコンテキストが遅延セマンティクスを推測するのに十分な時間である場合に、モデルの性能を向上させることができることを示す。
論文参考訳（メタデータ） (2025-04-24T13:56:43Z)
Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文参考訳（メタデータ） (2024-10-03T10:33:49Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
Exploring Category Structure with Contextual Language Models and Lexical Semantic Networks [0.0]
我々は、典型値の予測のために、CLMを探索するためのより広い範囲の手法を試験する。 BERTを用いた実験では,CLMプローブの適切な利用の重要性が示された。その結果, この課題における多義性の重要性が浮き彫りとなった。
論文参考訳（メタデータ） (2023-02-14T09:57:23Z)
ZhichunRoad at Amazon KDD Cup 2022: MultiTask Pre-Training for E-Commerce Product Search [4.220439000486713]
検索結果の質を向上させるために,頑健な多言語モデルを提案する。事前学習の段階では、mlmタスク、分類タスク、コントラスト学習タスクを採用する。微調整段階では、自信ある学習、指数的移動平均法(EMA)、対人訓練(FGM)、正規化ドロップアウト戦略(R-Drop)を用いる。
論文参考訳（メタデータ） (2023-01-31T07:31:34Z)
Semantics-Depth-Symbiosis: Deeply Coupled Semi-Supervised Learning of Semantics and Depth [83.94528876742096]
我々は,意味的セグメンテーションと深さ推定という2つの密なタスクのMTL問題に取り組み,クロスチャネル注意モジュール(CCAM)と呼ばれる新しいアテンションモジュールを提案する。次に,AffineMixと呼ばれる予測深度を用いた意味分節タスクのための新しいデータ拡張と,ColorAugと呼ばれる予測セマンティクスを用いた単純な深度増分を定式化する。最後に,提案手法の性能向上をCityscapesデータセットで検証し,深度と意味に基づく半教師付きジョイントモデルにおける最先端結果の実現を支援する。
論文参考訳（メタデータ） (2022-06-21T17:40:55Z)
A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文参考訳（メタデータ） (2022-04-11T18:31:53Z)
Detecting Human-Object Interactions with Object-Guided Cross-Modal Calibrated Semantics [6.678312249123534]
我々は,オブジェクト指向の統計モデルを用いて,エンドツーエンドのモデルを強化することを目指している。本稿では,Verb Semantic Model (VSM) とセマンティックアグリゲーション(セマンティックアグリゲーション)を用いて,このオブジェクト誘導階層から利益を得る方法を提案する。上記のモジュールの組み合わせは、オブジェクト指向クロスモーダルネットワーク(OCN)を構成する。
論文参考訳（メタデータ） (2022-02-01T07:39:04Z)
Meta-Learning with Variational Semantic Memory for Word Sense Disambiguation [56.830395467247016]
メタ学習環境におけるWSDのセマンティックメモリモデルを提案する。我々のモデルは階層的変動推論に基づいており、ハイパーネットワークを介して適応的なメモリ更新ルールを組み込んでいる。極めて少ないシナリオでの効果的な学習を支援するために,本モデルがWSDで最先端の技術を数ショットで実現していることを示す。
論文参考訳（メタデータ） (2021-06-05T20:40:01Z)
Learning Better Sentence Representation with Syntax Information [0.0]
構文情報と予め訓練された言語モデルを組み合わせるための新しいアプローチを提案する。本モデルは91.2%の精度を達成し, 文完成作業では37.8%の精度でベースラインモデルを上回った。
論文参考訳（メタデータ） (2021-01-09T12:15:08Z)
Keyphrase Extraction with Dynamic Graph Convolutional Networks and Diversified Inference [50.768682650658384]
キーワード抽出(KE)は、ある文書でカバーされている概念やトピックを正確に表現するフレーズの集合を要約することを目的としている。最近のシークエンス・ツー・シークエンス(Seq2Seq)ベースの生成フレームワークはKEタスクで広く使われ、様々なベンチマークで競合性能を得た。本稿では,この2つの問題を同時に解くために,動的グラフ畳み込みネットワーク(DGCN)を採用することを提案する。
論文参考訳（メタデータ） (2020-10-24T08:11:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。