Fugu-MT 論文翻訳(概要): A multi-level multi-label text classification dataset of 19th century Ottoman and Russian literary and critical texts

論文の概要: A multi-level multi-label text classification dataset of 19th century Ottoman and Russian literary and critical texts

arxiv url: http://arxiv.org/abs/2407.15136v1
Date: Sun, 21 Jul 2024 12:14:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-23 19:08:59.413876
Title: A multi-level multi-label text classification dataset of 19th century Ottoman and Russian literary and critical texts
Title（参考訳）: 19世紀オスマン帝国とロシア文学・批判テキストの多段階多言語テキスト分類データセット
Authors: Gokcen Gokceoglu, Devrim Cavusoglu, Emre Akbas, Özen Nergis Dolcerocca,
Abstract要約: 本稿では,3000以上の文書からなる多レベル多言語テキスト分類データセットを提案する。このデータセットは19世紀のトルコ語とロシア語の文学的および批判的なテキストを特徴としている。このデータセットに大規模言語モデル(LLM)を適用した最初の研究である。
参考スコア（独自算出の注目度）: 8.405938712823563
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper introduces a multi-level, multi-label text classification dataset comprising over 3000 documents. The dataset features literary and critical texts from 19th-century Ottoman Turkish and Russian. It is the first study to apply large language models (LLMs) to this dataset, sourced from prominent literary periodicals of the era. The texts have been meticulously organized and labeled. This was done according to a taxonomic framework that takes into account both their structural and semantic attributes. Articles are categorized and tagged with bibliometric metadata by human experts. We present baseline classification results using a classical bag-of-words (BoW) naive Bayes model and three modern LLMs: multilingual BERT, Falcon, and Llama-v2. We found that in certain cases, Bag of Words (BoW) outperforms Large Language Models (LLMs), emphasizing the need for additional research, especially in low-resource language settings. This dataset is expected to be a valuable resource for researchers in natural language processing and machine learning, especially for historical and low-resource languages. The dataset is publicly available^1.
Abstract（参考訳）: 本稿では,3000以上の文書からなる多レベル多言語テキスト分類データセットを提案する。このデータセットは19世紀のトルコ語とロシア語の文学的および批判的なテキストを特徴としている。このデータセットに大規模言語モデル(LLM)を適用した最初の研究である。テキストは慎重に整理され、ラベル付けされている。これは、構造的属性と意味的属性の両方を考慮に入れた分類学的枠組みに従って行われた。記事は、人間の専門家によって、聖書のメタデータで分類され、タグ付けされる。本稿では,古典的なbaba-of-words(BoW)ナイーブベイズモデルと,多言語BERT,Falcon,Llama-v2の3つのLLMを用いたベースライン分類結果を提案する。いくつかのケースでは、Bag of Words (BoW) はLarge Language Models (LLMs) よりも優れており、特に低リソースの言語設定において、さらなる研究の必要性を強調している。このデータセットは、自然言語処理や機械学習、特に歴史的および低リソース言語において、研究者にとって貴重なリソースであると期待されている。データセットは公開されています^1。

関連論文リスト

The taggedPBC: Annotating a massive parallel corpus for crosslinguistic investigations [0.0]
タグ付きPBCは1500以上の言語から1,800以上のposタグ付き並列テキストデータを含む。このデータセットのタグの精度は、両方の既存のSOTAタグと高いソース言語との相関関係が示されている。このデータセットから得られた新しい尺度であるN1比は,3つの類型的データベースにおける単語順の専門的決定と相関する。
論文参考訳（メタデータ） (2025-05-18T22:13:32Z)
Adapting Multilingual Embedding Models to Historical Luxembourgish [5.474797258314828]
本研究では,歴史的ルクセンブルク語における言語間セマンティック検索のための多言語埋め込みについて検討した。文のセグメンテーションと翻訳にはGPT-4oを使用し、言語ペア毎に20,000の並列トレーニング文を生成する。コントラスト学習や知識蒸留により,複数の多言語埋め込みモデルを適応させ,全てのモデルの精度を著しく向上させる。
論文参考訳（メタデータ） (2025-02-11T20:35:29Z)
The Text Classification Pipeline: Starting Shallow going Deeper [4.97309503788908]
過去10年間、ディープラーニングはテキスト分類に革命をもたらした。英語は、アラビア語、中国語、ヒンディー語などを含む研究にもかかわらず、主要言語である。この研究は、伝統的および現代のテキストマイニング方法論を統合し、テキスト分類の全体的理解を促進する。
論文参考訳（メタデータ） (2024-12-30T23:01:19Z)
Universal Cross-Lingual Text Classification [0.3958317527488535]
本研究は,言語横断テキスト分類における新たな視点を提案する。我々のアプローチは、訓練中に異なる言語からの教師付きデータをブレンドして普遍的なモデルを作成することである。主な目標は、ラベルと言語カバレッジを強化することであり、様々な言語のラベルの結合を表すラベルセットを目指している。
論文参考訳（メタデータ） (2024-06-16T17:58:29Z)
Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文参考訳（メタデータ） (2024-03-26T12:47:39Z)
Izindaba-Tindzaba: Machine learning news categorisation for Long and Short Text for isiZulu and Siswati [1.666378501554705]
南アフリカの言語は低資源言語に分類される。この作業では、isiZuluとSiswatiのネイティブ言語用の注釈付きニュースデータセットの作成に重点が置かれた。
論文参考訳（メタデータ） (2023-06-12T21:02:12Z)
T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文参考訳（メタデータ） (2023-06-08T07:33:22Z)
Taxi1500: A Multilingual Dataset for Text Classification in 1500 Languages [40.01333053375582]
我々は、多数の言語を含むテキスト分類データセットを作成することを目指している。我々は、このようなデータセットを構築するために聖書の平行翻訳を利用する。データの英語側をアノテートし、アライメントされた節を通してラベルを他の言語に投影することにより、1500以上の言語に対してテキスト分類データセットを生成する。
論文参考訳（メタデータ） (2023-05-15T09:43:32Z)
Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。本研究では,NLS(Neural Label Search for Summarization)を提案する。我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文参考訳（メタデータ） (2022-04-28T14:02:16Z)
SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。 SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文参考訳（メタデータ） (2022-01-10T18:47:15Z)
Sentiment analysis in tweets: an assessment study from classical to modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文参考訳（メタデータ） (2021-05-29T21:05:28Z)
An Amharic News Text classification Dataset [0.0]
6つのクラスに分類された50万以上のニュース記事からなるAmharicテキスト分類データセットの導入を目指しています。このデータセットは、研究とより良いパフォーマンス実験を促進するための簡単なベースラインパフォーマンスで利用可能になります。
論文参考訳（メタデータ） (2021-03-10T16:36:39Z)
Minimally-Supervised Structure-Rich Text Categorization via Learning on Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文参考訳（メタデータ） (2021-02-23T04:14:34Z)
Deep Learning for Hindi Text Classification: A Comparison [6.8629257716723]
デヴァナガリ文字で書かれた形態的に豊かで低資源のヒンディー語を分類する研究は、大きなラベル付きコーパスがないために限られている。本研究では,CNN,LSTM,注意に基づくモデル評価のために,英文データセットの翻訳版を用いた。また,本論文は,一般的なテキスト分類手法のチュートリアルとしても機能する。
論文参考訳（メタデータ） (2020-01-19T09:29:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。