論文の概要: Entropy-Aware Structural Alignment for Zero-Shot Handwritten Chinese Character Recognition
- arxiv url: http://arxiv.org/abs/2602.03913v1
- Date: Tue, 03 Feb 2026 16:08:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.222918
- Title: Entropy-Aware Structural Alignment for Zero-Shot Handwritten Chinese Character Recognition
- Title(参考訳): ゼロショット手書き文字認識のためのエントロピー対応構造アライメント
- Authors: Qiuming Luo, Tao Zeng, Feng Li, Heming Liu, Rui Mao, Chang Kong,
- Abstract要約: 本稿では,情報理論モデリングによる視覚と意味のギャップを埋めるエントロピー対応構造アライメントネットワークを提案する。
提案手法は、既存のCLIPベースのベースラインよりもはるかに優れており、難易度の高いゼロショット設定において、新しい最先端性能を確立する。
- 参考スコア(独自算出の注目度): 7.632962062462334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot Handwritten Chinese Character Recognition (HCCR) aims to recognize unseen characters by leveraging radical-based semantic compositions. However, existing approaches often treat characters as flat radical sequences, neglecting the hierarchical topology and the uneven information density of different components. To address these limitations, we propose an Entropy-Aware Structural Alignment Network that bridges the visual-semantic gap through information-theoretic modeling. First, we introduce an Information Entropy Prior to dynamically modulate positional embeddings via multiplicative interaction, acting as a saliency detector that prioritizes discriminative roots over ubiquitous components. Second, we construct a Dual-View Radical Tree to extract multi-granularity structural features, which are integrated via an adaptive Sigmoid-based gating network to encode both global layout and local spatial roles. Finally, a Top-K Semantic Feature Fusion mechanism is devised to augment the decoding process by utilizing the centroid of semantic neighbors, effectively rectifying visual ambiguities through feature-level consensus. Extensive experiments demonstrate that our method establishes new state-of-the-art performance, significantly outperforming existing CLIP-based baselines in the challenging zero-shot setting. Furthermore, the framework exhibits exceptional data efficiency, demonstrating rapid adaptability with minimal support samples.
- Abstract(参考訳): ゼロショット手書き漢字認識 (HCCR) は, 急進的な意味合成を活用することで, 見えない文字を認識することを目的としている。
しかし、既存のアプローチは文字を平坦なラジカル列として扱い、階層的位相と異なる成分の不均一な情報密度を無視している。
これらの制約に対処するため,情報理論モデリングにより視覚と意味のギャップを埋めるエントロピー対応構造アライメントネットワークを提案する。
まず、情報エントロピーを導入する。まず、ユビキタスなコンポーネントよりも差別的な根を優先する唾液検知器として機能し、乗法的相互作用によって位置埋め込みを動的に調節する。
第2に,大域的レイアウトと局所空間的役割の両方を符号化するために,適応型シグモイド型ゲーティングネットワークを介して統合された多粒度構造特徴を抽出するデュアルビューラディカルツリーを構築した。
最後に,Top-Kセマンティック・フィーチャーフュージョン機構を設計し,特徴レベルのコンセンサスによって視覚的あいまいさを効果的に補正することにより,デコーディングプロセスを強化する。
大規模な実験により,本手法は新たな最先端性能を確立し,既存のCLIPベースのベースラインをはるかに上回っていることが明らかとなった。
さらに、このフレームワークは例外的なデータ効率を示し、最小限のサポートサンプルで迅速な適応性を示す。
関連論文リスト
- Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - Generalizing WiFi Gesture Recognition via Large-Model-Aware Semantic Distillation and Alignment [6.124050993047708]
WiFiベースのジェスチャー認識は、AIoT環境において有望なRFセンシングパラダイムとして登場した。
本稿では,大規模モデル対応セマンティック蒸留・アライメントと呼ばれる新しい一般化フレームワークを提案する。
本手法は,実世界のAIoTアプリケーションにおいて,一般化されたRFベースのジェスチャーインタフェースに対して,スケーラブルでデプロイ可能なソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-15T10:28:50Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation [12.893224628061516]
リモートセンシング画像セグメンテーション(RRSIS)の目的は、自然言語表現を用いて、空中画像内の特定のピクセルレベル領域を抽出することである。
本稿では,これらの課題に対処するため,SBANet(Scale-wise Bidirectional Alignment Network)と呼ばれる革新的なフレームワークを提案する。
提案手法は,RRSIS-DとRefSegRSのデータセットにおける従来の最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2025-01-01T14:24:04Z) - Mesh Denoising Transformer [104.5404564075393]
Mesh Denoisingは、入力メッシュからノイズを取り除き、特徴構造を保存することを目的としている。
SurfaceFormerはTransformerベースのメッシュDenoisingフレームワークのパイオニアだ。
局所曲面記述子(Local Surface Descriptor)として知られる新しい表現は、局所幾何学的複雑さをキャプチャする。
Denoising Transformerモジュールは、マルチモーダル情報を受信し、効率的なグローバル機能アグリゲーションを実現する。
論文 参考訳(メタデータ) (2024-05-10T15:27:43Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。