論文の概要: CalliReader: Contextualizing Chinese Calligraphy via an Embedding-Aligned Vision-Language Model
- arxiv url: http://arxiv.org/abs/2503.06472v2
- Date: Wed, 12 Mar 2025 01:50:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 12:14:25.450586
- Title: CalliReader: Contextualizing Chinese Calligraphy via an Embedding-Aligned Vision-Language Model
- Title(参考訳): CalliReader: 埋め込み型視覚言語モデルによる中国語の書字の文脈化
- Authors: Yuxuan Luo, Jiaqi Tang, Chenyi Huang, Feiyang Hao, Zhouhui Lian,
- Abstract要約: 本稿では,3つの革新を通じて中国語の書道問題を解く視覚言語モデル(VLM)であるCalliReaderを提案する。
正確な文字抽出とソートのための文字スライシング、ビジュアルテキストトークン圧縮とアライメントのためのCalliAlign、埋め込み命令チューニング(e-IT)
ユーザスタディを含む大規模な実験は、CalliReaderのtextbfsuperiorityを、他の最先端の方法や人間専門家に検証するために実施されている。
- 参考スコア(独自算出の注目度): 14.738123241878693
- License:
- Abstract: Chinese calligraphy, a UNESCO Heritage, remains computationally challenging due to visual ambiguity and cultural complexity. Existing AI systems fail to contextualize their intricate scripts, because of limited annotated data and poor visual-semantic alignment. We propose CalliReader, a vision-language model (VLM) that solves the Chinese Calligraphy Contextualization (CC$^2$) problem through three innovations: (1) character-wise slicing for precise character extraction and sorting, (2) CalliAlign for visual-text token compression and alignment, (3) embedding instruction tuning (e-IT) for improving alignment and addressing data scarcity. We also build CalliBench, the first benchmark for full-page calligraphic contextualization, addressing three critical issues in previous OCR and VQA approaches: fragmented context, shallow reasoning, and hallucination. Extensive experiments including user studies have been conducted to verify our CalliReader's \textbf{superiority to other state-of-the-art methods and even human professionals in page-level calligraphy recognition and interpretation}, achieving higher accuracy while reducing hallucination. Comparisons with reasoning models highlight the importance of accurate recognition as a prerequisite for reliable comprehension. Quantitative analyses validate CalliReader's efficiency; evaluations on document and real-world benchmarks confirm its robust generalization ability.
- Abstract(参考訳): ユネスコ遺産である中国書道は、視覚的曖昧さと文化的な複雑さのために計算的に難しいままである。
既存のAIシステムは、注釈付きデータに制限があり、視覚的セマンティックアライメントが不十分なため、複雑なスクリプトのコンテキスト化に失敗する。
1)文字抽出とソートのための文字ワイズ,(2)視覚テキストのトークン圧縮とアライメントのためのCalliAlign,(3)アライメントの改善のための組込み命令チューニング(e-IT)の3つの革新を通じて,中国語の書体文脈化(CC$^2$)問題を解決する視覚言語モデルであるCalliReaderを提案する。
また、フルページの書式文脈化のための最初のベンチマークであるCalliBenchを構築し、以前のOCRとVQAアプローチにおける3つの重要な問題に対処します。
CalliReaderの‘textbf{superiority to other-of-the-art method and even human professionals in page-level calligraphy recognition and interpretation} を検証し,幻覚を低減しつつ高い精度を実現した。
推論モデルとの比較は、信頼できる理解のための前提条件として、正確な認識の重要性を強調している。
CalliReaderの効率を定量的に評価し、ドキュメントと実世界のベンチマークでその堅牢な一般化能力を確認する。
関連論文リスト
- Coarse-to-Fine Highlighting: Reducing Knowledge Hallucination in Large Language Models [58.952782707682815]
COFTは、異なるレベルのキーテキストにフォーカスする新しい方法であり、長いコンテキストで失われることを避ける。
知識幻覚ベンチマークの実験ではCOFTの有効性が示され、F1スコアの30%以上の性能が向上した。
論文 参考訳(メタデータ) (2024-10-19T13:59:48Z) - A Context-Contrastive Inference Approach To Partial Diacritization [0.5575959989491791]
ダイアクリプティゼーションは、読みやすさを改善し、アラビア語のテキストの意味を曖昧にする上で重要な役割を担っている。
partial Diacritzation (PD) は、必要に応じて理解を助けるためにマークされる文字のサブセットの選択である。
我々は,既存のアラビア語発音システムとシームレスに統合されたPDの新しいアプローチである,文脈コントラスト部分発音システム(CCPD)を紹介する。
論文 参考訳(メタデータ) (2024-01-17T02:04:59Z) - LC-Score: Reference-less estimation of Text Comprehension Difficulty [0.0]
我々は、参照なしのフランス語テキストに対して、テキスト理解度を訓練するための簡単なアプローチであるtextscLC-Scoreを提示する。
我々の目的は,テキストがtextitLangage Clair (LC, textitClear Language) ガイドラインに適合する範囲を定量的に把握することである。
i) 統計モデルの学習に使用される言語的動機付け指標を使用すること,(ii) 事前学習された言語モデルを利用したテキストから直接ニューラルラーニングを行うこと,の2つのアプローチを探索する。
論文 参考訳(メタデータ) (2023-10-04T11:49:37Z) - Looking at words and points with attention: a benchmark for
text-to-shape coherence [17.340484439401894]
生成した3次元形状と入力テキスト記述とのコヒーレンスの評価には明確なベンチマークが欠如している。
我々は、形状に関連する記述を自動的に洗練するために、大きな言語モデルを使用します。
アプローチを検証するために,ユーザスタディを実施し,既存のメトリクスと定量的に比較する。
改良されたデータセット、新しいメトリック、およびユーザスタディによって検証されたテキスト-形状のペアは、新しくてきめ細かいベンチマークを構成する。
論文 参考訳(メタデータ) (2023-09-14T17:59:48Z) - Linguistic More: Taking a Further Step toward Efficient and Accurate
Scene Text Recognition [92.6211155264297]
Scene Text Recognition (STR) タスクの単純さと効率性から,視覚モデルへの注目が高まっている。
最近の視覚モデルでは,(1)純粋な視覚に基づく問合せによって注意のドリフトが発生し,認識不良が生じ,言語的不感なドリフト(LID)問題として要約される。
我々は,正確なテキスト認識のための視覚モデルの言語的能力を検討するために,$textbfL$inguistic $textbfP$erception $textbfV$ision model (LPV)を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:52:47Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Structure-Augmented Text Representation Learning for Efficient Knowledge
Graph Completion [53.31911669146451]
人為的な知識グラフは、様々な自然言語処理タスクに重要な支援情報を提供する。
これらのグラフは通常不完全であり、自動補完を促す。
グラフ埋め込みアプローチ(例えばTransE)は、グラフ要素を密度の高い埋め込みに表現することで構造化された知識を学ぶ。
テキストエンコーディングアプローチ(KG-BERTなど)は、グラフトリプルのテキストとトリプルレベルの文脈化表現を利用する。
論文 参考訳(メタデータ) (2020-04-30T13:50:34Z) - A Novel Attention-based Aggregation Function to Combine Vision and
Language [55.7633883960205]
本稿では,視覚と言語のための新しい完全適応型還元法を提案する。
具体的には,各モータリティの各要素のスコアの集合を,クロスアテンションの新たな変種を用いて計算する。
我々は、画像テキストマッチングと視覚的質問応答のアプローチを試行し、他の縮小選択と公正な比較を構築した。
論文 参考訳(メタデータ) (2020-04-27T18:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。