論文の概要: LombardoGraphia: Automatic Classification of Lombard Orthography Variants
- arxiv url: http://arxiv.org/abs/2603.28418v1
- Date: Mon, 30 Mar 2026 13:28:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.413254
- Title: LombardoGraphia: Automatic Classification of Lombard Orthography Variants
- Title(参考訳): LombardoGraphia: Lombard Orthography Variants の自動分類
- Authors: Edoardo Signoroni, Pavel Rychlý,
- Abstract要約: 本論文は, 自動ロンバルド正書法分類と, 9種類の正書法でタグ付けされた11,186個のロンバルドウィキペディア標本のキュレーションコーパスであるLombardoGraphiaについて述べる。
従来の24の分類モデルとニューラル分類モデルを、様々な特徴とエンコーディングレベルで訓練します。
我々の最高のモデルでは、96.06%と85.78%の総合的および平均的なクラス精度が達成されているが、データ不均衡のため、マイノリティクラスのパフォーマンスは依然として困難である。
- 参考スコア(独自算出の注目度): 0.2864713389096699
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Lombard, an underresourced language variety spoken by approximately 3.8 million people in Northern Italy and Southern Switzerland, lacks a unified orthographic standard. Multiple orthographic systems exist, creating challenges for NLP resource development and model training. This paper presents the first study of automatic Lombard orthography classification and LombardoGraphia, a curated corpus of 11,186 Lombard Wikipedia samples tagged across 9 orthographic variants, and models for automatic orthography classification. We curate the dataset, processing and filtering raw Wikipedia content to ensure text suitable for orthographic analysis. We train 24 traditional and neural classification models with various features and encoding levels. Our best models achieve 96.06% and 85.78% overall and average class accuracy, though performance on minority classes remains challenging due to data imbalance. Our work provides crucial infrastructure for building variety-aware NLP resources for Lombard.
- Abstract(参考訳): ロンバルド語は、北イタリアと南スイスで約380万人が話しており、統一された正書法を欠いている。
複数の正書法システムが存在し、NLPリソース開発とモデルトレーニングの課題を生み出している。
本稿では,9種類の正書法にまたがってタグ付けされた11,186個のロンバルドウィキペディア標本と,自動正書法分類のためのモデルである,ロンバルド書法とロンバルド書法の最初の研究について述べる。
データセットをキュレートし、生のウィキペディアコンテンツを抽出し、正書法解析に適したテキストを確実にする。
従来の24の分類モデルとニューラル分類モデルを、様々な特徴とエンコーディングレベルで訓練します。
我々の最高のモデルでは、96.06%と85.78%の総合的および平均的なクラス精度が達成されているが、データ不均衡のため、マイノリティクラスのパフォーマンスは依然として困難である。
我々の研究は、Lombardのための多種多様なNLPリソースを構築するための重要なインフラを提供します。
関連論文リスト
- Aiding Medical Diagnosis through Image Synthesis and Classification [0.0]
本稿では,テキスト記述からリアルな医用画像を生成するシステムを提案する。
PathMNISTデータセット上で,Low-Rank Adaptation (LoRA) を用いて事前訓練した安定拡散モデルを微調整した。
ResNet-18の分類モデルは同じデータセットで訓練され、正確なラベルを検出する精度は99.76%に達した。
論文 参考訳(メタデータ) (2025-06-01T02:25:43Z) - Can Score-Based Generative Modeling Effectively Handle Medical Image Classification? [0.257133335028485]
本研究では,医療画像の分類器としてのスコアベース生成モデルについて検討する。
提案手法により, CBIS-DDSM, Inbreast, Vin-Dr Mammoデータセットの分類精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-24T23:41:33Z) - BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。
われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。
BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文 参考訳(メタデータ) (2025-01-13T09:58:03Z) - ExGra-Med: Extended Context Graph Alignment for Medical Vision-Language Models [95.47808515575382]
ExGra-Medは、医療AIのビジョン言語統合のための新しいフレームワークである。
画像、命令応答、拡張キャプションを潜在空間にアライメントし、セマンティックグラウンドとクロスモーダルコヒーレンスを前進させる。
プレトレーニングデータの10%しか使用せず、VQA-RADで20.13%向上し、フルデータパフォーマンスに近づいた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - AnoMalNet: Outlier Detection based Malaria Cell Image Classification
Method Leveraging Deep Autoencoder [0.0]
クラス不均衡の最も極端な場合にも対応できる,オフレイヤ検出に基づくバイナリ医用画像分類手法を提案する。
AnoMalNetという名前のオートエンコーダモデルは、最初は感染していない細胞イメージのみで訓練されている。
精度、精度、リコール、F1スコアはそれぞれ98.49%、97.07%、100%、98.52%に達した。
論文 参考訳(メタデータ) (2023-03-10T08:49:31Z) - Facilitated machine learning for image-based fruit quality assessment in
developing countries [68.8204255655161]
自動画像分類は食品科学における教師あり機械学習の一般的な課題である。
事前学習型視覚変換器(ViT)に基づく代替手法を提案する。
標準的なデバイス上で限られたリソースで簡単に実装できる。
論文 参考訳(メタデータ) (2022-07-10T19:52:20Z) - Dynamic Bank Learning for Semi-supervised Federated Image Diagnosis with
Class Imbalance [65.61909544178603]
クラス不均衡半教師付きFL(imFed-Semi)の実用的かつ困難な問題について検討する。
このImFed-Semi問題は、クラス比例情報を利用してクライアントトレーニングを改善する新しい動的銀行学習方式によって解決される。
25,000個のCTスライスによる頭蓋内出血診断と10,015個の皮膚内視鏡画像による皮膚病変診断の2つの公開実世界の医療データセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-06-27T06:51:48Z) - Background Splitting: Finding Rare Classes in a Sea of Background [55.03789745276442]
我々は,少数の稀なカテゴリの画像分類のための,高精度な深層モデルの訓練という現実的な問題に焦点をあてる。
これらのシナリオでは、ほとんどの画像はデータセットの背景カテゴリに属します(データセットの95%は背景です)。
非バランスなデータセットをトレーニングするための標準的な微調整アプローチと最先端アプローチの両方が、この極端な不均衡の存在下で正確な深層モデルを生成していないことを実証する。
論文 参考訳(メタデータ) (2020-08-28T23:05:15Z) - Classification of cancer pathology reports: a large-scale comparative
study [8.211700929845689]
我々は,ICD-O3トポグラフィーと形態素コードの自動割り当てに最先端のディープラーニング技術を適用した。
イタリア語で書かれ、トスカーナの病院で10年以上に渡り収集された大量のデータセット(ラベル付き8万件以上、匿名化未報告1万件以上)と多数のクラスについて報告する。
論文 参考訳(メタデータ) (2020-06-29T20:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。