論文の概要: Addestramento con Dataset Sbilanciati
- arxiv url: http://arxiv.org/abs/2008.09209v1
- Date: Tue, 18 Aug 2020 07:47:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 21:57:08.458788
- Title: Addestramento con Dataset Sbilanciati
- Title(参考訳): Addestramento con Dataset Sbilanciati
- Authors: Massimiliano Morrelli
- Abstract要約: トレーニングに使用されるデータセットは、Webチャネルで発生した単純なフレーズや会話からの抽出など、短文と中文で構成されている。
モデルのトレーニングは、Apache Sparkフレームワークで利用可能な構造の助けを借りて行われる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: English. The following document pursues the objective of comparing some
useful methods to balance a dataset and obtain a trained model. The dataset
used for training is made up of short and medium length sentences, such as
simple phrases or extracts from conversations that took place on web channels.
The training of the models will take place with the help of the structures made
available by the Apache Spark framework, the models may subsequently be useful
for a possible implementation of a solution capable of classifying sentences
using the distributed environment, as described in "New frontier of textual
classification: Big data and distributed calculation" by Massimiliano Morrelli
et al.
Italiano. Il seguente documento persegue l'obiettivo di mettere a confronto
alcuni metodi utili a bilanciare un dataset e ottenere un modello addestrato.
Il dataset utilizzato per l'addestramento \`e composto da frasi di lunghezza
breve e media, come frasi semplici o estratte da conversazioni avvenute su
canali web. L'addestramento dei modelli avverr\`a con l'ausilio delle strutture
messe a disposizione dal framework Apache Spark, i modelli successivamente
potranno essere utili a un eventuale implementazione di una soluzione in grado
di classificare frasi sfruttando l'ambiente distribuito, come descritto in
"Nuova frontiera della classificazione testuale: Big data e calcolo
distribuito" di Massimiliano Morrelli et al.
- Abstract(参考訳): 英語だ
以下の文書は、データセットのバランスとトレーニングされたモデルを得るためのいくつかの有用な方法を比較する目的を追求している。
トレーニングに使用されるデータセットは、Webチャネルで発生した単純なフレーズや会話からの抽出など、短文と中文で構成されている。
モデルのトレーニングは、apache sparkフレームワークによって利用可能になった構造の助けを借りて行われる。このモデルは、後にmassimiliano morrelli氏らによる"new frontier of textual classification: big data and distributed calculation"で説明されているように、分散環境を使って文章を分類できるソリューションの実装に有用かもしれない。
イタリア人。
Il seguente documento persegue l'obiettivo di mettere a confronto alcuni metodi utili a bilanciare un dataset e ottenere un modello addestrato。
Il dataset utilizzato per l'addestramento \`e composto da frasi di lunghezza breve e media, come frasi semplici o estratte da conversazioni avvenute su canali web。
l'addestramento dei modelli avverr\`a con l'ausilio delle strutture messe a disposizione dal framework apache spark, i modelli successivamente potranno essere utili a un resulte implementazione di una soluzione in grado di classificare frasi sfruttando l'ambiente distribuito, come descritto in "nuova frontiera della classificazione testuale: big data e calcolo distribuito" di massimiliano morrelli et al. (英語)
関連論文リスト
- FILM: How can Few-Shot Image Classification Benefit from Pre-Trained
Language Models? [14.582209994281374]
少数のサンプルしか持たない新しいクラスに一般化可能なモデルをトレーニングすることを目的としている。
コントラスト学習に基づく事前学習言語モデルを用いた新しい数発学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-09T08:07:43Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - CUE Vectors: Modular Training of Language Models Conditioned on Diverse
Contextual Signals [11.310756148007753]
本稿では,多種多様な文・外部文脈(メタデータを含む)を用いたニューラルネットワークモデルの学習をモジュール化する枠組みを提案する。
我々のアプローチである文脈的普遍埋め込み(CUE)は、日付や著者などの文脈の1つのセットでLMを訓練し、記事タイトルや前文のような新しいメタデータタイプに適応する。
我々は、複数のメタデータ型を持つNYTimesテキストコーパス上でCUEフレームワークを検証する。
論文 参考訳(メタデータ) (2022-03-16T17:37:28Z) - Retrieve-and-Fill for Scenario-based Task-Oriented Semantic Parsing [110.4684789199555]
シナリオベースのセマンティックパーシングを導入し、最初に発話の「scenario」を曖昧にする必要がある元のタスクの変種を紹介します。
この定式化により、タスクの粗くきめ細かな側面を分離することが可能となり、それぞれがオフザシェルフニューラルネットワークモジュールで解決される。
私たちのモデルはモジュール化され、差別化可能で、解釈可能で、シナリオから余分な監督を得られるようになります。
論文 参考訳(メタデータ) (2022-02-02T08:00:21Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Cross-language Sentence Selection via Data Augmentation and Rationale
Training [22.106577427237635]
雑音のある並列文データに対するデータ拡張と負のサンプリング技術を用いて、言語間埋め込みに基づくクエリ関連モデルの学習を行う。
その結果、同じ並列データでトレーニングされた複数の最先端機械翻訳+モノリンガル検索システムよりも、このアプローチが優れているか、あるいは優れていることが示された。
論文 参考訳(メタデータ) (2021-06-04T07:08:47Z) - Few-shot learning through contextual data augmentation [74.20290390065475]
機械翻訳モデルは、時間とともに性能を維持するために新しいデータに適応する必要がある。
一つの例から5つの例への適応が可能であることを示す。
本モデルでは,平均313個の並列例でトレーニングした基準システムよりも精度がよいことを示す。
論文 参考訳(メタデータ) (2021-03-31T09:05:43Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z) - MICK: A Meta-Learning Framework for Few-shot Relation Classification
with Small Training Data [12.349417678635765]
ほとんどショット関係の分類では、少数のサポートインスタンスに遭遇した後で、入ってくるクエリインスタンスを分類しようとする。
本稿では,関係分類のための数発の学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-26T06:23:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。