論文の概要: How Cute is Pikachu? Gathering and Ranking Pok\'emon Properties from
Data with Pok\'emon Word Embeddings
- arxiv url: http://arxiv.org/abs/2108.09546v1
- Date: Sat, 21 Aug 2021 16:52:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 06:43:56.984131
- Title: How Cute is Pikachu? Gathering and Ranking Pok\'emon Properties from
Data with Pok\'emon Word Embeddings
- Title(参考訳): ピカチュウはどうですか。
Pok\emon ワード埋め込みデータによる Pok\emon プロパティの収集とランク付け
- Authors: Mika H\"am\"al\"ainen, Khalid Alnajjar and Niko Partanen
- Abstract要約: クロールされたPok'emonコーパス上に、いくつかの異なる単語埋め込みモデルをトレーニングする。
私たちは、ポクモンにどのような特徴があるかに基づいて、自動的に英語の形容詞をランク付けするためにそれらを使用します。
- 参考スコア(独自算出の注目度): 0.9023847175654602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present different methods for obtaining descriptive properties
automatically for the 151 original Pok\'emon. We train several different word
embeddings models on a crawled Pok\'emon corpus, and use them to rank
automatically English adjectives based on how characteristic they are to a
given Pok\'emon. Based on our experiments, it is better to train a model with
domain specific data than to use a pretrained model. Word2Vec produces less
noise in the results than fastText model. Furthermore, we expand the list of
properties for each Pok\'emon automatically. However, none of the methods is
spot on and there is a considerable amount of noise in the different semantic
models. Our models have been released on Zenodo.
- Abstract(参考訳): 我々は,151個のオリジナル pok\'emon に対して,記述性を自動的に得るための異なる方法を提案する。
クロールしたPok\'emonコーパス上に複数の単語埋め込みモデルをトレーニングし、与えられたPok\'emonにどのような特徴があるかに基づいて、自動的に英語の形容詞をランク付けする。
我々の実験に基づいて、事前訓練されたモデルを使用するよりも、ドメイン固有のデータでモデルをトレーニングする方がよい。
Word2Vecは、結果においてfastTextモデルよりもノイズが少ない。
さらに、各Pok\'emonのプロパティのリストを自動的に拡張します。
しかし、いずれの手法も見つからず、異なるセマンティックモデルにはかなりのノイズがある。
私たちのモデルはZenodoでリリースされました。
関連論文リスト
- Pseudo-labeling with Keyword Refining for Few-Supervised Video Captioning [42.0725330677271]
本稿では,語彙制約付き擬似ラベルモジュールとキーワード修正字幕モジュールからなる動画キャプションフレームワークを提案する。
いくつかのベンチマークの実験では、少数の教師付きシナリオと完全な教師付きシナリオの両方において提案されたアプローチの利点を実証している。
論文 参考訳(メタデータ) (2024-11-06T17:11:44Z) - Learning High-Quality and General-Purpose Phrase Representations [9.246374019271938]
フレーズ表現は、データサイエンスと自然言語処理において重要な役割を果たす。
現在の最先端手法では、フレーズ埋め込みのための訓練済み言語モデルを微調整する。
文脈自由な方法で句表現を学習するための改良されたフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T22:32:31Z) - Self-Alignment with Instruction Backtranslation [162.02529653768096]
本稿では,人文テキストに対応する命令を自動ラベル付けすることで,高品質な命令従言語モデルを構築する方法を提案する。
我々の手法は命令バックトランスレーションと呼ばれ、少量のシードデータと与えられたWebコーパスに基づいて微調整された言語モデルから始まります。
論文 参考訳(メタデータ) (2023-08-11T17:47:54Z) - Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文 参考訳(メタデータ) (2023-05-22T13:12:16Z) - Nonparametric Masked Language Modeling [113.71921977520864]
既存の言語モデル(LM)は、有限語彙上のソフトマックスでトークンを予測する。
NPMは,このソフトマックスを参照コーパス内の各フレーズの非パラメトリック分布に置き換える最初の非パラメトリックマスク付き言語モデルである。
NPMは、コントラスト目的と全コーパス検索に対するバッチ内近似で効率的に訓練することができる。
論文 参考訳(メタデータ) (2022-12-02T18:10:42Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Grapheme-to-Phoneme Transformer Model for Transfer Learning Dialects [1.3786433185027864]
Grapheme-to-Phoneme(G2P)モデルは、単語を発音に変換する。
通常、辞書ベースの手法は構築にかなりの手作業を必要とし、目に見えない単語への適応性が制限されている。
本研究では,小さな辞書を用いながら,目に見えない英語の方言に適応するトランスフォーマーに基づく注意モデルを提案する。
論文 参考訳(メタデータ) (2021-04-08T21:36:21Z) - CharBERT: Character-aware Pre-trained Language Model [36.9333890698306]
本稿ではCharBERTという文字認識事前学習言語モデルを提案する。
まず、逐次的文字表現から各トークンに対する文脈単語埋め込みを構築する。
次に、新しい異種相互作用モジュールによって文字とサブワードの表現を融合する。
論文 参考訳(メタデータ) (2020-11-03T07:13:06Z) - Lexical Sememe Prediction using Dictionary Definitions by Capturing
Local Semantic Correspondence [94.79912471702782]
セメムは人間の言語の最小の意味単位として定義されており、多くのNLPタスクで有用であることが証明されている。
本稿では,このようなマッチングを捕捉し,セメムを予測できるセメム対応プールモデルを提案する。
我々は,有名なSememe KB HowNetのモデルとベースライン手法を評価し,そのモデルが最先端のパフォーマンスを実現することを発見した。
論文 参考訳(メタデータ) (2020-01-16T17:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。