論文の概要: k\=oan: A Corrected CBOW Implementation
- arxiv url: http://arxiv.org/abs/2012.15332v1
- Date: Wed, 30 Dec 2020 21:37:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-04-18 09:06:21.870406
- Title: k\=oan: A Corrected CBOW Implementation
- Title(参考訳): k\=oan: 修正CBOW実装
- Authors: Ozan \.Irsoy, Adrian Benton, Karl Stratos
- Abstract要約: NLPコミュニティでは、単語埋め込み(CBOW)がスキップグラム(SG)の埋め込みに劣る傾向があるという共通の信念がある。
CBOWの正しい実装は、SGと完全に競合する単語埋め込みを様々な本質的および外因的タスクにもたらすことを示しています。
- 参考スコア(独自算出の注目度): 22.622641633696634
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: It is a common belief in the NLP community that continuous bag-of-words
(CBOW) word embeddings tend to underperform skip-gram (SG) embeddings. We find
that this belief is founded less on theoretical differences in their training
objectives but more on faulty CBOW implementations in standard software
libraries such as the official implementation word2vec.c and Gensim. We show
that our correct implementation of CBOW yields word embeddings that are fully
competitive with SG on various intrinsic and extrinsic tasks while being more
than three times as fast to train. We release our implementation, k\=oan, at
https://github.com/bloomberg/koan.
- Abstract(参考訳): NLPコミュニティでは、CBOW(continuous bag-of-words)ワードの埋め込みがスキップグラム(SG)埋め込みを過小評価する傾向にあるという共通認識がある。
この信念は、トレーニング目標の理論的差異よりも、公式実装の word2vec.c や Gensim などの標準ソフトウェアライブラリにおけるCBOW実装の欠陥に基づいていることが分かる。
CBOWの正しい実装は、学習の3倍以上の速さで、様々な本質的・外生的なタスクにおいてSGと完全に競合する単語埋め込みをもたらすことを示す。
私たちは実装であるk\=oanをhttps://github.com/bloomberg/koan.comでリリースします。
関連論文リスト
- You Need an Encoder for Native Position-Independent Caching [28.778240400537175]
LLM(Large Language Models)のキーバリューキャッシュはプレフィックスベースである。
位置独立キャッシング(PIC)は、位置制約なしでKVの再利用を可能にするために提案されている。
我々は、エンコーダを一般的なデコーダのみのLLMに再導入し、PICをサポートするように明示的にトレーニングすることで、ネイティブなPICを提案する。
さらに,既存の推論フレームワークとシームレスに統合可能なPIC対応キャッシングシステムであるCOMBを開発した。
論文 参考訳(メタデータ) (2026-02-02T01:23:13Z) - Overcoming Joint Intractability with Lossless Hierarchical Speculative Decoding [58.92526489742584]
我々は無益な無益な提案をする。
承認されたトークンの数を大幅に増加させる検証方法。
HSDは様々なモデルファミリやベンチマークの受け入れ率に一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2026-01-09T11:10:29Z) - SIM-CoT: Supervised Implicit Chain-of-Thought [108.30049193668083]
Implicit Chain-of-Thought(CoT)メソッドは、大規模言語モデルにおける明示的なCoT推論に代わるトークン効率の代替手段を提供する。
暗黙的なCoTの計算予算をスケールする際の中核的な不安定性問題を特定する。
そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を実現するモジュールである。
論文 参考訳(メタデータ) (2025-09-24T17:01:32Z) - CODI: Compressing Chain-of-Thought into Continuous Space via Self-Distillation [30.762815456866083]
自然言語CoTを連続空間に効果的に圧縮する新しいトレーニングフレームワークであるCODI(Continuous Chain-of-Thought via Self-Distillation)を紹介する。
CODI は GPT-2 スケールでの GSM8k 上での明示的な CoT のパフォーマンスに適合する最初の暗黙の CoT アプローチである。
論文 参考訳(メタデータ) (2025-02-28T14:07:48Z) - SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition [77.28814034644287]
CTCモデルであるSVTRv2を提案する。
SVTRv2は、テキストの不規則性に対処し、言語コンテキストを利用するための新しいアップグレードを導入した。
我々は,SVTRv2を標準ベンチマークと最近のベンチマークの両方で評価した。
論文 参考訳(メタデータ) (2024-11-24T14:21:35Z) - Just-In-Time Software Defect Prediction via Bi-modal Change Representation Learning [5.04327119462716]
本稿では, BiCC-BERT と呼ばれる新しいバイモーダル変更事前学習モデルを提案する。
BiCC-BERTは、バイモーダルなセマンティック表現を学ぶために、コード変更コーパスで事前訓練される。
27,391コードの変更を使用してJIT-BiCCをトレーニングし、そのパフォーマンスを8つの最先端JIT-DPアプローチと比較する。
論文 参考訳(メタデータ) (2024-10-15T23:13:29Z) - Towards Understanding Why FixMatch Generalizes Better Than Supervised Learning [97.1805039692731]
半教師付き学習(SSL)は、教師付き学習(SL)よりも大幅に一般化されている。
ディープニューラルネットワーク(DNN)に適用したFixMatchライクSSLで観測されたテスト精度向上のための最初の理論的正当性を示す。
分析フレームワークはFlexMatch、FreeMatch、Dash、SoftMatchといった他のFixMatchライクなSSLメソッドにも適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-15T02:47:57Z) - When simplicity meets effectiveness: Detecting code comments coherence with word embeddings and LSTM [6.417777780911223]
コードコメントは、プログラマに実用的な情報を提供するため、ソフトウェア開発において重要な役割を果たす。
開発者はコードを更新した後、コメントをそのまま残す傾向があり、2つのアーティファクトの間に相違が生じます。
コードスニペットが与えられたら、そのコメントが一貫性があり、コードの背後にある意図をよく反映しているかどうかを特定することが重要です。
論文 参考訳(メタデータ) (2024-05-25T15:21:27Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - SDCL: Self-Distillation Contrastive Learning for Chinese Spell Checking [48.12125502456953]
本稿では,中国のスペルチェックタスクにBERTを適用するためのトークンレベルの自己蒸留コントラスト学習手法を提案する。
コントラスト学習損失を用いて、不正なトークンの隠された状態を正規化し、正しい文でそれに近いものにします。
論文 参考訳(メタデータ) (2022-10-31T09:29:21Z) - Benchmarking Constraint Inference in Inverse Reinforcement Learning [19.314352936252444]
多くの実世界の問題において、専門家が従う制約は、RLエージェントに数学的に、未知に指定することがしばしば困難である。
本稿では,ロボット制御と自律運転という2つの主要なアプリケーション領域の文脈において,CIRLベンチマークを構築する。
CIRLアルゴリズムのパフォーマンスを再現するための情報を含むこのベンチマークは、https://github.com/Guiliang/CIRL-benchmarks-publicで公開されている。
論文 参考訳(メタデータ) (2022-06-20T09:22:20Z) - Optimization and Generalization Analysis of Transduction through
Gradient Boosting and Application to Multi-scale Graph Neural Networks [60.22494363676747]
現在のグラフニューラルネットワーク(GNN)は、オーバースムーシング(over-smoothing)と呼ばれる問題のため、自分自身を深くするのは難しいことが知られている。
マルチスケールGNNは、オーバースムーシング問題を緩和するための有望なアプローチである。
マルチスケールGNNを含むトランスダクティブ学習アルゴリズムの最適化と一般化を保証する。
論文 参考訳(メタデータ) (2020-06-15T17:06:17Z) - Improved Algorithms for Conservative Exploration in Bandits [113.55554483194832]
文脈線形帯域設定における保守的学習問題について検討し、新しいアルゴリズムである保守的制約付きLinUCB(CLUCB2)を導入する。
我々は、既存の結果と一致したCLUCB2に対する後悔の限界を導き、多くの合成および実世界の問題において、最先端の保守的バンディットアルゴリズムよりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2020-02-08T19:35:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。