Fugu-MT 論文翻訳(概要): CoLa: Chinese Character Decomposition with Compositional Latent Components

論文の概要: CoLa: Chinese Character Decomposition with Compositional Latent Components

arxiv url: http://arxiv.org/abs/2506.03798v1
Date: Wed, 04 Jun 2025 10:06:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 21:20:14.28229
Title: CoLa: Chinese Character Decomposition with Compositional Latent Components
Title（参考訳）: CoLa: 合成潜在成分を用いた漢字分解
Authors: Fan Shi, Haiyang Yu, Bin Li, Xiangyang Xue,
Abstract要約: 人間は漢字を構成成分に分解し、それらを再結合して見えない文字を認識することができる。本研究では,漢字(CoLa)の合成潜時成分を人間定義の分解方式に頼らずに学習する潜時変数モデルを提案する。
参考スコア（独自算出の注目度）: 63.01848135436417
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Humans can decompose Chinese characters into compositional components and recombine them to recognize unseen characters. This reflects two cognitive principles: Compositionality, the idea that complex concepts are built on simpler parts; and Learning-to-learn, the ability to learn strategies for decomposing and recombining components to form new concepts. These principles provide inductive biases that support efficient generalization. They are critical to Chinese character recognition (CCR) in solving the zero-shot problem, which results from the common long-tail distribution of Chinese character datasets. Existing methods have made substantial progress in modeling compositionality via predefined radical or stroke decomposition. However, they often ignore the learning-to-learn capability, limiting their ability to generalize beyond human-defined schemes. Inspired by these principles, we propose a deep latent variable model that learns Compositional Latent components of Chinese characters (CoLa) without relying on human-defined decomposition schemes. Recognition and matching can be performed by comparing compositional latent components in the latent space, enabling zero-shot character recognition. The experiments illustrate that CoLa outperforms previous methods in both character the radical zero-shot CCR. Visualization indicates that the learned components can reflect the structure of characters in an interpretable way. Moreover, despite being trained on historical documents, CoLa can analyze components of oracle bone characters, highlighting its cross-dataset generalization ability.
Abstract（参考訳）: 人間は漢字を構成成分に分解し、それらを再結合して見えない文字を認識することができる。これは2つの認知原理を反映している: 構成性、複雑な概念はより単純な部分の上に構築されるという考え、学習から学習への学習、コンポーネントを分解して再結合して新しい概念を形成する戦略を学ぶ能力である。これらの原理は効率的な一般化をサポートする帰納的バイアスを与える。ゼロショット問題の解決には漢字認識(CCR)が重要であり、これは漢字データセットの共通長テール分布から導かれる。既存の手法は、あらかじめ定義されたラジカル分解やストローク分解によって構成性をモデル化している。しかし、学習から学習までの能力は無視されることが多く、人間定義のスキームを超えて一般化する能力を制限する。これらの原理に着想を得て,人間の定義した分解方式に頼ることなく,漢字(CoLa)の合成潜時成分を学習する潜時変数モデルを提案する。潜在空間における合成潜在成分を比較し、ゼロショット文字認識を可能にすることにより、認識とマッチングを行うことができる。実験により、CoLaはラジカルゼロショットCCRを特徴付ける従来の手法よりも優れていることが示された。可視化は、学習したコンポーネントが文字の構造を解釈可能な方法で反映できることを示している。さらに、歴史的文書でトレーニングされているにもかかわらず、CoLaはオラクルの骨文字の成分を分析し、データセット間の一般化能力を強調することができる。

関連論文リスト

The Impact of Visual Information in Chinese Characters: Evaluating Large Models' Ability to Recognize and Utilize Radicals [17.24821720084663]
我々は,大言語モデルと視覚言語モデルによる漢字の視覚的要素の理解を評価する。我々の結果は、モデルが驚くほど、しかしまだ限られた、視覚情報に関する知識を誇示していることを示している。我々は、ラジカルに関する追加情報を提供する際に、パートオフ音声タグ付けにおける一貫した改善を観察する。
論文参考訳（メタデータ） (2024-10-11T17:30:02Z)
Graph-guided Cross-composition Feature Disentanglement for Compositional Zero-shot Learning [54.08741382593959]
合成ゼロショット学習(CZSL)において、プリミティブ(属性とオブジェクト)の視覚的特徴の歪みは例外的な結果を示した。異なる構成にまたがる一般的な非絡み合った原始的特徴を学ぶことは困難である。本稿では,複数のプリミティブ共有合成を入力として利用するクロスコンポジション特徴分散の解を提案する。
論文参考訳（メタデータ） (2024-08-19T08:23:09Z)
Finding structure in logographic writing with library learning [55.63800121311418]
書記システムにおける構造を発見するための計算フレームワークを開発する。我々の枠組みは中国語の表記体系における既知の言語構造を発見する。図書館学習のアプローチが、人間の認知における構造の形成の基盤となる基本的な計算原理を明らかにするのにどのように役立つかを実証する。
論文参考訳（メタデータ） (2024-05-11T04:23:53Z)
Simple Primitives with Feasibility- and Contextuality-Dependence for Open-World Compositional Zero-shot Learning [86.5258816031722]
コンポジションゼロショット学習(CZSL)の課題は、トレーニング段階で欠落している新しい状態オブジェクトのイメージを認識することである。コンポジション埋め込みの学習方法は、クローズドワールドCZSLにおいて有効であることが示されている。オープンワールドCZSL (OW-CZSL) では, 組成の濃度が大きいため, その性能は著しく低下する傾向にある。
論文参考訳（メタデータ） (2022-11-05T12:57:06Z)
Compositional Generalization in Unsupervised Compositional Representation Learning: A Study on Disentanglement and Emergent Language [48.37815764394315]
合成一般化を直接テストできる2つのデータセット上で、3つの教師なし表現学習アルゴリズムについて検討する。単純なモデルと少ないラベルでボトルネック表現を直接使用すると、学習された表現そのものの前後のレイヤからの表現よりも、より悪い一般化につながる可能性がある。驚くべきことに、不整合表現を生成する圧力の増加は、より悪い一般化を伴う表現を生成するのに対し、ELモデルからの表現は強い合成一般化を示す。
論文参考訳（メタデータ） (2022-10-02T10:35:53Z)
Zero-Shot Chinese Character Recognition with Stroke-Level Decomposition [37.808021793372504]
本稿では,各文字をストローク列に分解することで,ストロークに基づく手法を提案する。我々は、予測されたストロークシーケンスを特定の文字に変換するためにマッチングベースの戦略を用いる。提案手法は、文字をストロークに分解できる他の言語に容易に一般化できる。
論文参考訳（メタデータ） (2021-06-22T08:49:03Z)
A causal view of compositional zero-shot recognition [42.63916938252048]
人々は既知のコンポーネントの新しい組み合わせである新しい視覚カテゴリーを容易に認識する。この構成一般化能力は、視覚や言語といった現実世界の領域での学習に不可欠である。ここでは、因果的考えに基づく構成的一般化のアプローチについて述べる。
論文参考訳（メタデータ） (2020-06-25T17:51:22Z)
Compositional Generalization by Learning Analytical Expressions [87.15737632096378]
メモリ拡張ニューラルモデルは、合成一般化を達成するために解析式に接続される。良く知られたベンチマークSCANの実験は、我々のモデルが構成的一般化の優れた能力をつかむことを示した。
論文参考訳（メタデータ） (2020-06-18T15:50:57Z)
Compositionality and Generalization in Emergent Languages [42.68870559695238]
深層マルチエージェントシミュレーションで現れる言語が、新しいプリミティブの組み合わせに類似する能力を持っているかどうかを考察する。創発的言語の合成度合いと一般化能力の相関関係は見つからない。構成的な言語が多ければ多いほど、新しい学習者が習得しやすくなります。
論文参考訳（メタデータ） (2020-04-20T08:30:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。