論文の概要: Highly Fast Text Segmentation With Pairwise Markov Chains
- arxiv url: http://arxiv.org/abs/2102.11037v1
- Date: Wed, 17 Feb 2021 20:08:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 00:42:22.509547
- Title: Highly Fast Text Segmentation With Pairwise Markov Chains
- Title(参考訳): Pairwise Markov Chainsを用いた高速テキストセグメンテーション
- Authors: Elie Azeraf, Emmanuel Monfrini, Emmanuel Vignon, Wojciech Pieczynski
- Abstract要約: 本稿では,NLPセグメンテーションタスクにおけるマルコフ連鎖モデル,Hidden Markov Chain (HMC) とPairwise Markov Chain (PMC) について検討する。
テキストセグメンテーションの特定の課題にこれらのモデルを適応させる独自の手法を開発し、非常に短いトレーニングと実行時間で関連するパフォーマンスを得る。
- 参考スコア(独自算出の注目度): 7.85426761612795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural Language Processing (NLP) models' current trend consists of using
increasingly more extra-data to build the best models as possible. It implies
more expensive computational costs and training time, difficulties for
deployment, and worries about these models' carbon footprint reveal a critical
problem in the future. Against this trend, our goal is to develop NLP models
requiring no extra-data and minimizing training time. To do so, in this paper,
we explore Markov chain models, Hidden Markov Chain (HMC) and Pairwise Markov
Chain (PMC), for NLP segmentation tasks. We apply these models for three
classic applications: POS Tagging, Named-Entity-Recognition, and Chunking. We
develop an original method to adapt these models for text segmentation's
specific challenges to obtain relevant performances with very short training
and execution times. PMC achieves equivalent results to those obtained by
Conditional Random Fields (CRF), one of the most applied models for these tasks
when no extra-data are used. Moreover, PMC has training times 30 times shorter
than the CRF ones, which validates this model given our objectives.
- Abstract(参考訳): 自然言語処理(NLP)モデルの現在のトレンドは、可能な限り最高のモデルを構築するために、より多くのデータを使用しています。
これは、より高価な計算コストとトレーニング時間、展開の困難、そしてこれらのモデルの炭素フットプリントに対する懸念が将来重要な問題であることを示している。
この傾向に対して、我々の目標は、余分なデータを必要としないNLPモデルを開発し、トレーニング時間を最小化することです。
そこで本稿では,NLPセグメンテーションタスクのためのマルコフ連鎖モデルであるHidden Markov Chain(HMC)とPairwise Markov Chain(PMC)について検討する。
これらのモデルをPOSタグ、名前付きエンティティ認識、チャンキングの3つの古典的アプリケーションに適用する。
テキストセグメンテーションの特定の課題にこれらのモデルを適応させる独自の手法を開発し、非常に短いトレーニングと実行時間で関連するパフォーマンスを得る。
PMCは、条件付きランダムフィールド(CRF)によって得られたものと同等の結果を得る。
さらに, PMC のトレーニング時間は CRF の30倍も短く, 本モデルの有効性を検証した。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Semi-Supervised Reward Modeling via Iterative Self-Training [52.48668920483908]
本稿では,未ラベルデータを用いたRMトレーニングを強化する手法であるSemi-Supervised Reward Modeling (SSRM)を提案する。
SSRMは、追加のラベリングコストを発生させることなく、報酬モデルを大幅に改善することを示した。
全体として、SSRMは、人間が注釈付けした大量のデータへの依存を大幅に減らし、効果的な報酬モデルのトレーニングに要する全体的なコストと時間を削減する。
論文 参考訳(メタデータ) (2024-09-10T22:57:58Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - A Two-Phase Recall-and-Select Framework for Fast Model Selection [13.385915962994806]
本稿では,2相モデル選択フレームワークを提案する。
これは、ベンチマークデータセット上でモデルのトレーニングパフォーマンスを活用することにより、堅牢なモデルを選択する効率を高めることを目的としている。
提案手法は,従来のベースライン法に比べて約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。
論文 参考訳(メタデータ) (2024-03-28T14:44:44Z) - Transfer Ranking in Finance: Applications to Cross-Sectional Momentum
with Data Scarcity [2.3204178451683264]
本稿では,新しいパラメータ共有転送ランキングモデルであるFused Networksを紹介する。
このモデルは、ソースデータセット上で動作するエンコーダアテンションモジュールを用いて抽出された情報を融合する。
これは、不足対象データに対するトレーニングの結果生じる、一般化可能性の低いモデルの問題を緩和する。
論文 参考訳(メタデータ) (2022-08-21T21:34:11Z) - DQ-BART: Efficient Sequence-to-Sequence Model via Joint Distillation and
Quantization [75.72231742114951]
BARTやT5のような大規模事前学習シーケンス・ツー・シーケンスモデルは、多くの生成NLPタスクで最先端のパフォーマンスを達成する。
これらのモデルは、大きなメモリ要件と高いレイテンシのため、リソース制約のあるシナリオにおいて大きな課題となる。
そこで,本論文では,教師モデルから学生モデルへの知識の伝達と,学生モデルの定量化と定量化について提案する。
論文 参考訳(メタデータ) (2022-03-21T18:04:25Z) - Simple Local Attentions Remain Competitive for Long-Context Tasks [32.785459927278616]
多くのNLPタスクは、事前訓練されたモデルの長さ制限を超える長いコンテキストを処理する必要がある。
これらのモデルをより長いテキストシーケンスにスケールするために、多くの効率的な長距離アテンション変種が提案されている。
各注意変種について、同一の長docコーパスを用いて大規模モデルを事前訓練し、それらのモデルを現実世界の長コンテキストタスクのために微調整する。
論文 参考訳(メタデータ) (2021-12-14T07:37:58Z) - Identifying and Mitigating Spurious Correlations for Improving
Robustness in NLP Models [19.21465581259624]
多くの問題は、刺激的な相関を利用したモデルや、トレーニングデータとタスクラベルの間のショートカットに起因する可能性がある。
本論文では,NLPモデルにおけるこのような素因的相関を大規模に同定することを目的とする。
提案手法は,スケーラブルな「ショートカット」の集合を効果的かつ効率的に同定し,複数のアプリケーションにおいてより堅牢なモデルに導かれることを示す。
論文 参考訳(メタデータ) (2021-10-14T21:40:03Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。