論文の概要: VATr++: Choose Your Words Wisely for Handwritten Text Generation
- arxiv url: http://arxiv.org/abs/2402.10798v1
- Date: Fri, 16 Feb 2024 16:21:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 15:17:02.448628
- Title: VATr++: Choose Your Words Wisely for Handwritten Text Generation
- Title(参考訳): VATr++:手書きテキスト生成のために単語を簡潔に選択する
- Authors: Bram Vanherle, Vittorio Pippi, Silvia Cascianelli, Nick Michiels,
Frank Van Reeth, Rita Cucchiara
- Abstract要約: 本研究は,HTGモデルトレーニングにおける視覚的およびテキスト的入力の影響と,その後のパフォーマンスへの影響について検討する。
本稿では,モデルの性能向上と一般化を実現するための,入力準備と訓練規則化のための戦略を提案する。
特に,HTGの評価プロトコルの標準化を提案し,既存のアプローチの総合的なベンチマークを行う。
- 参考スコア(独自算出の注目度): 31.85795187719533
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Styled Handwritten Text Generation (HTG) has received significant attention
in recent years, propelled by the success of learning-based solutions employing
GANs, Transformers, and, preliminarily, Diffusion Models. Despite this surge in
interest, there remains a critical yet understudied aspect - the impact of the
input, both visual and textual, on the HTG model training and its subsequent
influence on performance. This study delves deeper into a cutting-edge
Styled-HTG approach, proposing strategies for input preparation and training
regularization that allow the model to achieve better performance and
generalize better. These aspects are validated through extensive analysis on
several different settings and datasets. Moreover, in this work, we go beyond
performance optimization and address a significant hurdle in HTG research - the
lack of a standardized evaluation protocol. In particular, we propose a
standardization of the evaluation protocol for HTG and conduct a comprehensive
benchmarking of existing approaches. By doing so, we aim to establish a
foundation for fair and meaningful comparisons between HTG strategies,
fostering progress in the field.
- Abstract(参考訳): 近年, GAN, Transformer, および未熟な拡散モデルを用いた学習ベースソリューションの成功により, スタイル付き手書きテキスト生成 (HTG) が注目されている。
このような関心の高まりにもかかわらず、入力がHTGモデルのトレーニングに視覚的およびテキスト的の影響と、その後のパフォーマンスへの影響という、重要な未調査の側面が依然として残っている。
本研究は,最先端のhtgアプローチに深く掘り下げ,入力準備とトレーニング正規化のための戦略を提案し,モデルの性能向上と一般化を可能にした。
これらの側面は、いくつかの異なる設定とデータセットに関する広範な分析を通じて検証される。
さらに,本研究では,HTG研究における性能最適化を超えて,標準化された評価プロトコルの欠如に対処する。
特に,HTGの評価プロトコルの標準化を提案し,既存のアプローチの総合的なベンチマークを行う。
そのために我々は,htg戦略の公平かつ有意義な比較の基礎を確立し,この分野の進歩を育むことを目指している。
関連論文リスト
- A Lost Opportunity for Vision-Language Models: A Comparative Study of Online Test-Time Adaptation for Vision-Language Models [3.0495235326282186]
ディープラーニングでは、分散シフトに対する堅牢性を維持することが重要です。
この研究は、視覚言語基礎モデルをテスト時に適用するための幅広い可能性を探究する。
論文 参考訳(メタデータ) (2024-05-23T18:27:07Z) - Heuristic-enhanced Candidates Selection strategy for GPTs tackle Few-Shot Aspect-Based Sentiment Analysis [1.5020330976600738]
本論文は、ヒューリスティック・エンハンスド・候補選択戦略を設計し、それに基づくオール・イン・ワン(AiO)モデルを提案する。
このモデルは2段階で動作し、PLMの精度と一般化の能力を同時に調節する。
実験の結果,提案手法は複数のサブタスクに適応し,GPTを直接利用する手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-09T07:02:14Z) - Overcoming Pitfalls in Graph Contrastive Learning Evaluation: Toward
Comprehensive Benchmarks [60.82579717007963]
本稿では,グラフコントラスト学習(GCL)手法の有効性,一貫性,全体的な能力をより正確に評価するために,拡張された評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-24T01:47:56Z) - Advancing NLP Models with Strategic Text Augmentation: A Comprehensive
Study of Augmentation Methods and Curriculum Strategies [0.0]
本研究では,さまざまなデータセットと自然言語処理(NLP)タスクにまたがるテキスト拡張手法の徹底的な評価を行う。
トピック分類や感情分析,攻撃的言語検出などのタスクにおいて,これらの手法がトレーニングセットを増強し,パフォーマンスを向上させる効果について検討した。
論文 参考訳(メタデータ) (2024-02-14T12:41:09Z) - Standardizing Your Training Process for Human Activity Recognition
Models: A Comprehensive Review in the Tunable Factors [4.199844472131922]
ウェアラブルヒューマンアクティビティ認識(WHAR)分野における現代ディープラーニング研究の総括的レビューを行う。
この結果から,モデルトレーニングプロトコルが提供する詳細が欠如していることが示唆された。
分析から得られた知見をもとに,WHARモデルに適合した新たな統合トレーニング手順を定義する。
論文 参考訳(メタデータ) (2024-01-10T17:45:28Z) - TeG-DG: Textually Guided Domain Generalization for Face Anti-Spoofing [8.830873674673828]
既存の方法は、様々な訓練領域からドメイン不変の特徴を抽出することを目的としている。
抽出された特徴は、必然的に残差スタイルの特徴バイアスを含んでおり、その結果、一般化性能が劣る。
本稿では,テキスト情報をドメイン間アライメントに有効活用するテキストガイド型ドメイン一般化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:13:46Z) - Adaptive Fine-Grained Predicates Learning for Scene Graph Generation [122.4588401267544]
一般的なシーングラフ生成(SGG)モデルは、頭部の述語を予測する傾向があり、再バランス戦略は尾のカテゴリを好む。
本稿では,SGGの難解な述語を識別することを目的とした適応的微粒述語学習(FGPL-A)を提案する。
提案したモデル非依存戦略は,VG-SGGおよびGQA-SGGデータセットのベンチマークモデルの性能を最大175%,Mean Recall@100では76%向上させ,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-11T03:37:57Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - A Survey on Heterogeneous Graph Embedding: Methods, Techniques,
Applications and Sources [79.48829365560788]
異種情報ネットワーク (heterogenous information network) としても知られるヘテロジニアスグラフ (HGs) は、現実のシナリオにおいてユビキタス化されている。
HG埋め込みは、下流タスクのための不均一な構造と意味を保ちながら、低次元空間での表現を学習することを目的としている。
論文 参考訳(メタデータ) (2020-11-30T15:03:47Z) - Progressive Generation of Long Text with Pretrained Language Models [83.62523163717448]
GPT-2のような大量のテキストコーパスで事前訓練された大規模言語モデル(LM)は、強力なオープンドメインテキストジェネレータである。
このようなモデルが、特に小さなコーパス上のターゲットドメインに微調整された場合、コヒーレントな長いテキストパスを生成することは依然として困難である。
本稿では,低解像度から高解像度の画像に触発されて,テキストを段階的に生成する簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2020-06-28T21:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。