論文の概要: Contrastive Learning for Character Detection in Ancient Greek Papyri
- arxiv url: http://arxiv.org/abs/2409.10156v1
- Date: Mon, 16 Sep 2024 10:41:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 16:00:03.460870
- Title: Contrastive Learning for Character Detection in Ancient Greek Papyri
- Title(参考訳): 古代ギリシア・パピルスにおける文字検出のコントラスト学習
- Authors: Vedasri Nakka, Andreas Fischer, Rolf Ingold, Lars Vogtlin,
- Abstract要約: 本論文は,ギリシャ文字認識におけるコントラスト学習手法であるSimCLRの有効性について考察する。
SimCLRの事前トレーニングはAlpubデータセット上で行われ、続いてICDARデータセット上で微調整が行われる。
実験の結果,SimCLRは文字認識タスクのベースラインを上回りません。
- 参考スコア(独自算出の注目度): 0.6361669177741777
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This thesis investigates the effectiveness of SimCLR, a contrastive learning technique, in Greek letter recognition, focusing on the impact of various augmentation techniques. We pretrain the SimCLR backbone using the Alpub dataset (pretraining dataset) and fine-tune it on a smaller ICDAR dataset (finetuning dataset) to compare SimCLR's performance against traditional baseline models, which use cross-entropy and triplet loss functions. Additionally, we explore the role of different data augmentation strategies, essential for the SimCLR training process. Methodologically, we examine three primary approaches: (1) a baseline model using cross-entropy loss, (2) a triplet embedding model with a classification layer, and (3) a SimCLR pretrained model with a classification layer. Initially, we train the baseline, triplet, and SimCLR models using 93 augmentations on ResNet-18 and ResNet-50 networks with the ICDAR dataset. From these, the top four augmentations are selected using a statistical t-test. Pretraining of SimCLR is conducted on the Alpub dataset, followed by fine-tuning on the ICDAR dataset. The triplet loss model undergoes a similar process, being pretrained on the top four augmentations before fine-tuning on ICDAR. Our experiments show that SimCLR does not outperform the baselines in letter recognition tasks. The baseline model with cross-entropy loss demonstrates better performance than both SimCLR and the triplet loss model. This study provides a detailed evaluation of contrastive learning for letter recognition, highlighting SimCLR's limitations while emphasizing the strengths of traditional supervised learning models in this task. We believe SimCLR's cropping strategies may cause a semantic shift in the input image, reducing training effectiveness despite the large pretraining dataset. Our code is available at https://github.com/DIVA-DIA/MT_augmentation_and_contrastive_learning/.
- Abstract(参考訳): 本論文は,ギリシア文字認識におけるコントラスト学習手法であるSimCLRの有効性について考察する。
我々は、Alpubデータセット(トレーニングデータセット)を使用してSimCLRのバックボーンを事前トレーニングし、それを小さなICDARデータセット(ファインタニングデータセット)で微調整し、SimCLRのパフォーマンスを、クロスエントロピーとトリプルト損失関数を使用する従来のベースラインモデルと比較する。
さらに、SimCLRトレーニングプロセスに不可欠な、さまざまなデータ拡張戦略の役割についても検討する。
手法として,(1)クロスエントロピー損失を用いたベースラインモデル,(2)分類層を持つ三重項埋め込みモデル,(3)分類層を持つSimCLR事前学習モデル,の3つのアプローチを検討した。
当初、ICDARデータセットでResNet-18およびResNet-50ネットワーク上で93拡張を使用して、ベースライン、トリプレット、およびSimCLRモデルをトレーニングしました。
これらから、上位4つの拡張は統計t-testを用いて選択される。
SimCLRの事前トレーニングはAlpubデータセットで行われ、続いてICDARデータセットで微調整が行われる。
3重項損失モデルも同様のプロセスを実行し、ICDARで微調整する前に、上位4つのオーグメンテーションで事前訓練される。
実験の結果,SimCLRは文字認識タスクのベースラインを上回りません。
クロスエントロピー損失をもつベースラインモデルは、SimCLRと三重項損失モデルの両方よりも優れた性能を示す。
本研究は,従来の教師付き学習モデルの強みを強調しつつ,SimCLRの限界を強調し,文字認識のためのコントラスト学習の詳細な評価を行う。
我々は、SimCLRのトリミング戦略が入力画像のセマンティックシフトを引き起こし、大規模な事前トレーニングデータセットにもかかわらず、トレーニングの有効性を低下させると考えている。
私たちのコードはhttps://github.com/DIVA-DIA/MT_augmentation_and_contrastive_learning/で利用可能です。
関連論文リスト
- Understanding the Benefits of SimCLR Pre-Training in Two-Layer Convolutional Neural Networks [10.55004012983524]
SimCLRは視覚タスクのための最も一般的なコントラスト学習手法の1つである。
我々は、おもちゃの画像データモデルを学ぶために、2層畳み込みニューラルネットワーク(CNN)を訓練することを検討する。
ラベル付きデータ数のある条件下では,SimCLRの事前学習と教師付き微調整を組み合わせることで,ほぼ最適なテスト損失が得られることを示す。
論文 参考訳(メタデータ) (2024-09-27T12:19:41Z) - Bridging the Sim-to-Real Gap with Bayesian Inference [53.61496586090384]
データからロボットダイナミクスを学習するためのSIM-FSVGDを提案する。
我々は、ニューラルネットワークモデルのトレーニングを規則化するために、低忠実度物理プリエンスを使用します。
高性能RCレースカーシステムにおけるSIM-to-realギャップのブリッジ化におけるSIM-FSVGDの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-25T11:29:32Z) - Re-Simulation-based Self-Supervised Learning for Pre-Training Foundation
Models [1.230412738960606]
自己監視学習(SSL)は、現代の大規模機械学習モデルのトレーニングの中核にある。
本稿では,データ拡張のための再シミュレーション手法を用いた新しいシミュレーションベースのSSL戦略であるRS3Lを提案する。
結果に加えて、SSL戦略を改善するためのさらなる研究のために、RS3Lデータセットを公開しています。
論文 参考訳(メタデータ) (2024-03-11T18:00:47Z) - Data Augmentation for Traffic Classification [54.92823760790628]
Data Augmentation (DA) はコンピュータビジョン(CV)と自然言語処理(NLP)に広く採用されている技術である。
DAはネットワークのコンテキスト、特にトラフィック分類(TC)タスクにおいて、牽引力を得るのに苦労しています。
論文 参考訳(メタデータ) (2024-01-19T15:25:09Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Learning Deep Representations via Contrastive Learning for Instance
Retrieval [11.736450745549792]
本稿では、インスタンス識別に基づくコントラスト学習(CL)を用いて、この問題に取り組むための最初の試みを行う。
本研究では、事前学習されたCLモデルと微調整されたCLモデルから識別表現を導出する能力を探求することにより、この問題に対処する。
論文 参考訳(メタデータ) (2022-09-28T04:36:34Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Texture Aware Autoencoder Pre-training And Pairwise Learning Refinement
For Improved Iris Recognition [16.383084641568693]
本稿では,訓練データに制限のあるデータセットに対して,エンドツーエンドでトレーニング可能な虹彩認識システムを提案する。
私たちは、いくつかの重要な最適化とアーキテクチャの革新によって、以前の段階的な学習フレームワークを構築しました。
利用可能な3つのアイリスデータセットにまたがってモデルを検証し、提案したモデルは従来の学習ベースラインとディープラーニングベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2022-02-15T15:12:31Z) - Consistency and Monotonicity Regularization for Neural Knowledge Tracing [50.92661409499299]
人間の知識獲得を追跡する知識追跡(KT)は、オンライン学習と教育におけるAIの中心的なコンポーネントです。
本稿では, 新たなデータ拡張, 代替, 挿入, 削除の3種類と, 対応する正規化損失を提案する。
さまざまなKTベンチマークに関する広範な実験は、私たちの正規化スキームがモデルのパフォーマンスを一貫して改善することを示しています。
論文 参考訳(メタデータ) (2021-05-03T02:36:29Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。