論文の概要: Improving Chinese Character Representation with Formation Tree
- arxiv url: http://arxiv.org/abs/2404.12693v1
- Date: Fri, 19 Apr 2024 07:47:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 15:55:43.263740
- Title: Improving Chinese Character Representation with Formation Tree
- Title(参考訳): 形成木を用いた漢字表現の改善
- Authors: Yang Hong, Yinfei Li, Xiaojun Qiao, Rui Li, Junsong Zhang,
- Abstract要約: Formation Tree-CLIP (FT-CLIP) は漢字の効果的な表現を学習するための新しいモデルである。
フォーメーションツリーを組み込んで文字を表現し、専用のツリーエンコーダを組み込み、文字認識タスクと見えない文字認識タスクの両方のパフォーマンスを大幅に改善する。
広範囲な実験により、生成木による文字の処理は、直接逐次法よりも固有の性質と整合していることが示されている。
- 参考スコア(独自算出の注目度): 3.1684694301284804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning effective representations for Chinese characters presents unique challenges, primarily due to the vast number of characters and their continuous growth, which requires models to handle an expanding category space. Additionally, the inherent sparsity of character usage complicates the generalization of learned representations. Prior research has explored radical-based sequences to overcome these issues, achieving progress in recognizing unseen characters. However, these approaches fail to fully exploit the inherent tree structure of such sequences. To address these limitations and leverage established data properties, we propose Formation Tree-CLIP (FT-CLIP). This model utilizes formation trees to represent characters and incorporates a dedicated tree encoder, significantly improving performance in both seen and unseen character recognition tasks. We further introduce masking for to both character images and tree nodes, enabling efficient and effective training. This approach accelerates training significantly (by a factor of 2 or more) while enhancing accuracy. Extensive experiments show that processing characters through formation trees aligns better with their inherent properties than direct sequential methods, significantly enhancing the generality and usability of the representations.
- Abstract(参考訳): 漢字の効果的な表現を学習することは、主に多数の文字とその連続的な成長のために、拡大する圏空間を扱うモデルを必要とする、ユニークな課題を提示する。
さらに、文字使用の本質的にの空間性は、学習された表現の一般化を複雑にしている。
これまでの研究では、これらの問題を克服するために急進的なシーケンスを探索し、目に見えない文字を認識する進歩を達成してきた。
しかし、これらのアプローチはそのようなシーケンスの固有のツリー構造を完全に活用することができない。
これらの制約に対処し、確立されたデータ特性を活用するために、フォーメーションツリーCLIP(FT-CLIP)を提案する。
このモデルは,文字表現にフォーメーションツリーを使用し,専用のツリーエンコーダを組み込むことで,文字認識タスクと未知の文字認識タスクの両方のパフォーマンスを著しく向上させる。
さらに、文字画像とツリーノードの両方にマスキングを導入し、効率的かつ効果的なトレーニングを可能にした。
このアプローチは、正確性を高めながら、トレーニングを著しく(2以上)加速する。
集約的な実験により、生成木による文字の処理は直接逐次法よりも特性に整合し、表現の汎用性とユーザビリティを著しく向上させることが示された。
関連論文リスト
- SAN: Structure-Aware Network for Complex and Long-tailed Chinese Text Recognition [9.190324058948987]
複雑な文字の認識性能を向上させるため,階層型合成情報を利用した構造認識ネットワークを提案する。
実験により,提案手法は複雑な文字と尾文字の性能を大幅に向上し,全体的な性能が向上することを示した。
論文 参考訳(メタデータ) (2024-11-10T07:41:00Z) - Tree semantic segmentation from aerial image time series [24.14827064108217]
1年以上にわたる空中データセット画像を用いて,樹木のセマンティックセグメンテーションを行う。
単体画像で訓練したモデルと時系列で訓練したモデルを比較し,木表現学がセグメンテーション性能に与える影響を評価する。
樹種分類の階層構造を,種,属,高水準の3つのレベルで予測を洗練させるカスタム・ロス・ファンクションを取り入れることで活用する。
論文 参考訳(メタデータ) (2024-07-18T02:19:57Z) - Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning [53.241569810013836]
本稿では,大規模言語モデル(LLM)を用いて,効率的な特徴生成ルールを同定するフレームワークを提案する。
我々は、自然言語で容易に表現できるため、この推論情報を伝達するために決定木を使用します。
OCTreeは様々なベンチマークで様々な予測モデルの性能を継続的に向上させる。
論文 参考訳(メタデータ) (2024-06-12T08:31:34Z) - Bidirectional Trained Tree-Structured Decoder for Handwritten
Mathematical Expression Recognition [51.66383337087724]
Handwriting Mathematical Expression Recognition (HMER) タスクは、OCRの分野における重要な分岐である。
近年の研究では、双方向コンテキスト情報の導入により、HMERモデルの性能が大幅に向上することが示されている。
本稿では,MF-SLT と双方向非同期トレーニング (BAT) 構造を提案する。
論文 参考訳(メタデータ) (2023-12-31T09:24:21Z) - Real-World Compositional Generalization with Disentangled
Sequence-to-Sequence Learning [81.24269148865555]
最近提案されたDunangled sequence-to-sequence model (Dangle)は、有望な一般化能力を示している。
このモデルに2つの重要な変更を加え、より不整合表現を奨励し、その計算とメモリ効率を改善する。
具体的には、各タイミングでソースキーと値を適応的に再エンコードするのではなく、表現をアンタングルし、キーを定期的に再エンコードする。
論文 参考訳(メタデータ) (2022-12-12T15:40:30Z) - RLET: A Reinforcement Learning Based Approach for Explainable QA with
Entailment Trees [47.745218107037786]
本稿では,強化学習に基づくEntailment Tree生成フレームワークであるRLETを提案する。
RLETは文の選択と推論生成モジュールによる単一ステップ推論を反復的に行う。
EntailmentBankデータセットの3つの設定の実験では、RLフレームワークを使用することの強みが示されている。
論文 参考訳(メタデータ) (2022-10-31T06:45:05Z) - Learning compositional structures for semantic graph parsing [81.41592892863979]
本稿では、AM依存性解析をニューラル潜在変数モデルで直接トレーニングする方法を示す。
本モデルでは,いくつかの言語現象を独自に把握し,教師あり学習に匹敵する精度を達成している。
論文 参考訳(メタデータ) (2021-06-08T14:20:07Z) - Unsupervised Learning of Discourse Structures using a Tree Autoencoder [8.005512864082126]
本研究では, 自動符号化目的による潜在木誘導フレームワークを拡張することにより, タスクに依存しない, 監視されていない方法で木構造を生成する新しい戦略を提案する。
提案されたアプローチは、構文解析、談話解析など、任意のツリー目的に適用することができる。
本稿では,複数の領域における自然文の一般的な木構造を推定し,様々なタスクで有望な結果を示す。
論文 参考訳(メタデータ) (2020-12-17T08:40:34Z) - MurTree: Optimal Classification Trees via Dynamic Programming and Search [61.817059565926336]
動的プログラミングと探索に基づいて最適な分類木を学習するための新しいアルゴリズムを提案する。
当社のアプローチでは,最先端技術が必要とする時間のごく一部しか使用せず,数万のインスタンスでデータセットを処理することが可能です。
論文 参考訳(メタデータ) (2020-07-24T17:06:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。