論文の概要: LadderMoE: Ladder-Side Mixture of Experts Adapters for Bronze Inscription Recognition
- arxiv url: http://arxiv.org/abs/2510.01651v1
- Date: Thu, 02 Oct 2025 04:14:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.98303
- Title: LadderMoE: Ladder-Side Mixture of Experts Adapters for Bronze Inscription Recognition
- Title(参考訳): LadderMoE:青銅文字認識のためのエキスパートアダプタのラダーサイド混合
- Authors: Rixin Zhou, Peiqiang Qiu, Qian Zhang, Chuntao Li, Xi Yang,
- Abstract要約: 入力を局所化し、個々の文字を転写する2段階検出認識パイプラインを開発した。
本手法は,最先端のシーンテキスト認識ベースラインを大幅に上回る。
これらの結果は、青銅碑文認識と下流考古学的分析の強力な基盤を確立している。
- 参考スコア(独自算出の注目度): 9.737597797794553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bronze inscriptions (BI), engraved on ritual vessels, constitute a crucial stage of early Chinese writing and provide indispensable evidence for archaeological and historical studies. However, automatic BI recognition remains difficult due to severe visual degradation, multi-domain variability across photographs, rubbings, and tracings, and an extremely long-tailed character distribution. To address these challenges, we curate a large-scale BI dataset comprising 22454 full-page images and 198598 annotated characters spanning 6658 unique categories, enabling robust cross-domain evaluation. Building on this resource, we develop a two-stage detection-recognition pipeline that first localizes inscriptions and then transcribes individual characters. To handle heterogeneous domains and rare classes, we equip the pipeline with LadderMoE, which augments a pretrained CLIP encoder with ladder-style MoE adapters, enabling dynamic expert specialization and stronger robustness. Comprehensive experiments on single-character and full-page recognition tasks demonstrate that our method substantially outperforms state-of-the-art scene text recognition baselines, achieving superior accuracy across head, mid, and tail categories as well as all acquisition modalities. These results establish a strong foundation for bronze inscription recognition and downstream archaeological analysis.
- Abstract(参考訳): 青銅器碑文(BI)は儀式用の器に刻まれており、初期の漢文の重要な段階であり、考古学的・歴史的研究に欠かせない証拠となっている。
しかし、画像間での視覚的劣化、多領域変動、ラビング、トレーシング、および極端に長い文字分布などにより、自動BI認識は依然として困難である。
これらの課題に対処するため、22454のフルページイメージと、6658のユニークなカテゴリにまたがる198598の注釈付き文字からなる大規模なBIデータセットをキュレートし、堅牢なクロスドメイン評価を実現する。
このリソースをベースとして、2段階検出認識パイプラインを構築し、まず入力をローカライズし、次に個々の文字を転写する。
ヘテロジニアスなドメインとレアなクラスを扱うために、パイプラインにLadderMoEを装備する。LadderMoEは、トレーニング済みのCLIPエンコーダにラグスタイルのMoEアダプタを追加し、動的専門家の専門化と強力な堅牢性を実現する。
単一文字および全ページ認識タスクに関する総合的な実験により、本手法は最先端のシーン認識ベースラインを著しく上回り、頭、中、尾のカテゴリ、そして全ての獲得モダリティにおいて優れた精度を達成できることを示した。
これらの結果は、青銅碑文認識と下流考古学的分析の強力な基盤を確立している。
関連論文リスト
- Beyond Artificial Misalignment: Detecting and Grounding Semantic-Coordinated Multimodal Manipulations [56.816929931908824]
マルチモーダルデータにおける意味的協調操作の検出の先駆者となった。
本稿では,RamDG(Retrieval-Augmented Manipulation Detection and Grounding)フレームワークを提案する。
我々のフレームワークは既存の手法よりも優れており、SAMMの精度は最先端の手法に比べて2.06%高い。
論文 参考訳(メタデータ) (2025-09-16T04:18:48Z) - METER: Multi-modal Evidence-based Thinking and Explainable Reasoning -- Algorithm and Benchmark [48.78602579128459]
本稿では,画像,ビデオ,音声,映像コンテンツにまたがる偽造検出のための統合ベンチマークMETERを紹介する。
我々のデータセットは4つのトラックから構成されており、それぞれのトラックは実際のvsフェイク分類だけでなく、エビデンスチェーンに基づく説明も必要である。
論文 参考訳(メタデータ) (2025-07-22T03:42:51Z) - A Transformer Based Handwriting Recognition System Jointly Using Online and Offline Features [8.419663258260671]
オフライン画像とオンラインストロークデータの早期融合を行うエンド・ツー・エンド・ネットワークを提案する。
我々の手法は最先端の精度を達成し、過去のベストを最大1%上回っている。
論文 参考訳(メタデータ) (2025-06-25T08:58:47Z) - General Detection-based Text Line Recognition [15.761142324480165]
我々は、テキスト行認識に対する一般的な検出に基づくアプローチを、印刷(OCR)や手書き(HTR)として導入する。
我々の手法は、自己回帰復号に依存する最先端のHTR手法とは全く異なるパラダイムに基づいている。
我々は、CASIA v2データセット上での中国語スクリプト認識と、BorgおよびCopialeデータセット上での暗号認識の最先端性能を改善した。
論文 参考訳(メタデータ) (2024-09-25T17:05:55Z) - A Cross-Font Image Retrieval Network for Recognizing Undeciphered Oracle Bone Inscriptions [12.664292922995532]
Oracle Bone Inscription (OBI)は中国最古の成熟した書記システムである。
OBI文字を解読するクロスファント画像検索ネットワーク(CFIRN)を提案する。
論文 参考訳(メタデータ) (2024-09-10T10:04:58Z) - Unsupervised Structure-Texture Separation Network for Oracle Character
Recognition [70.29024469395608]
オラクルの骨書は上海王朝の中国最古の書記体系であり、考古学や文献学に重要視されている。
そこで本稿では, 連関, 変換, 適応, 認識のためのエンドツーエンド学習フレームワークである構造テクスチャ分離ネットワーク(STSN)を提案する。
論文 参考訳(メタデータ) (2022-05-13T10:27:02Z) - Unsupervised Clustering of Roman Potsherds via Variational Autoencoders [63.8376359764052]
我々は,ローマのコモンウェア・ポッシャードの分類作業において,考古学者を支援する人工知能ソリューションを提案する。
断片の部分性と手作りのばらつきは、それらのマッチングを困難な問題にしている。
深部畳み込み変分オートエンコーダ(VAE)ネットワークの潜時空間で学習した非線形特徴の教師なし階層的クラスタリングにより、類似したプロファイルをペアリングすることを提案する。
論文 参考訳(メタデータ) (2022-03-14T18:56:13Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。