論文の概要: Enabling Stroke-Level Structural Analysis of Hieroglyphic Scripts without Language-Specific Priors
- arxiv url: http://arxiv.org/abs/2601.05508v1
- Date: Fri, 09 Jan 2026 03:30:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.831059
- Title: Enabling Stroke-Level Structural Analysis of Hieroglyphic Scripts without Language-Specific Priors
- Title(参考訳): 言語に特有な先行しないヒエログリフ文字のストロークレベル構造解析
- Authors: Fuwen Luo, Zihao Wan, Ziyue Wang, Yaluo Liu, Pau Tong Lin Xu, Xuanjia Qiao, Xiaolong Wang, Peng Li, Yang Liu,
- Abstract要約: ヒエログリフ・ストローク・アナライザー(HieroSA)は、ヒエログリフと古代ヒエログリフの文字イメージを明示的で解釈可能な線分表現に変換するフレームワークである。
HieroSAは文字内構造や意味を効果的に捉え、言語固有の先行詞の必要性を回避している。
- 参考スコア(独自算出の注目度): 13.56721856255538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hieroglyphs, as logographic writing systems, encode rich semantic and cultural information within their internal structural composition. Yet, current advanced Large Language Models (LLMs) and Multimodal LLMs (MLLMs) usually remain structurally blind to this information. LLMs process characters as textual tokens, while MLLMs additionally view them as raw pixel grids. Both fall short to model the underlying logic of character strokes. Furthermore, existing structural analysis methods are often script-specific and labor-intensive. In this paper, we propose Hieroglyphic Stroke Analyzer (HieroSA), a novel and generalizable framework that enables MLLMs to automatically derive stroke-level structures from character bitmaps without handcrafted data. It transforms modern logographic and ancient hieroglyphs character images into explicit, interpretable line-segment representations in a normalized coordinate space, allowing for cross-lingual generalization. Extensive experiments demonstrate that HieroSA effectively captures character-internal structures and semantics, bypassing the need for language-specific priors. Experimental results highlight the potential of our work as a graphematics analysis tool for a deeper understanding of hieroglyphic scripts. View our code at https://github.com/THUNLP-MT/HieroSA.
- Abstract(参考訳): ヒエログリフ(Hieroglyphs)は、書記システムとして、その内部構造構成の中で、豊かな意味と文化的情報をエンコードする。
しかし、現在のLarge Language Models (LLM) とMultimodal LLMs (MLLM) は、この情報に対して構造的に盲目のままである。
LLMは文字をテキストトークンとして処理し、MLLMはそれらを生のピクセルグリッドとして見る。
どちらも、キャラクタストロークの基礎となるロジックをモデル化するのに不足している。
さらに、既存の構造解析手法はしばしばスクリプト固有であり、労働集約的である。
本稿では,手作りデータのない文字ビットマップから,MLLMが自動的にストロークレベルの構造を導出可能な,新規で一般化可能なフレームワークであるHieroglyphic Stroke Analyzerを提案する。
現代のロモグラフィや古代のヒエログリフの文字イメージを正規化された座標空間における明示的で解釈可能な線分表現に変換し、言語間一般化を可能にする。
大規模な実験では、HieroSAが文字内部の構造と意味を効果的に捉え、言語固有の先行概念の必要性を回避している。
実験結果は,ヒエログリフ文字のより深い理解のためのグラフ解析ツールとして,我々の研究の可能性を浮き彫りにした。
コードについてはhttps://github.com/THUNLP-MT/HieroSAを参照してください。
関連論文リスト
- Spelling-out is not Straightforward: LLMs' Capability of Tokenization from Token to Characters [25.430820735194768]
大型言語モデル(LLM)は、文字単位で文字をスペルするが、より複雑な文字レベルのタスクに苦労する。
本研究では,LLMがスペルアウト処理中に文字レベルの情報を内部的にどのように表現し,活用するかを検討する。
論文 参考訳(メタデータ) (2025-06-12T12:27:41Z) - Unify Graph Learning with Text: Unleashing LLM Potentials for Session Search [35.20525123189316]
セッション検索は、ユーザの複雑な情報ニーズを満たすための一連の対話的なクエリとアクションを含む。
現在の戦略は、相互作用のグラフ構造を見渡すことで、深い意味理解のためのシーケンシャルなモデリングを優先している。
テキストベースとグラフベースの両方のアプローチを活用することを目的としたSGR(Symbolic Graph Ranker)を提案する。
論文 参考訳(メタデータ) (2025-05-20T10:05:06Z) - Filter-then-Generate: Large Language Models with Structure-Text Adapter for Knowledge Graph Completion [20.973071287301067]
大規模言語モデル(LLM)は、膨大な固有の知識と優れた意味理解能力を示す。
実証的な証拠は、LLMは従来の知識グラフ補完手法よりも一貫して性能が悪いことを示唆している。
そこで本研究では,これらの課題に対処するために,FtGという命令チューニングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-12T09:22:04Z) - LogogramNLP: Comparing Visual and Textual Representations of Ancient Logographic Writing Systems for NLP [30.804518354947565]
記録データの大部分は、転写がないため、純粋に視覚的に持続する。
この問題は、NLPツールキットを古代のログ言語研究に応用しようとする研究者にとってボトルネックとなる。
我々は,古代のログ言語のNLP解析を可能にする最初のベンチマークであるLogogramNLPを紹介する。
論文 参考訳(メタデータ) (2024-08-08T17:58:06Z) - Large Language Models on Graphs: A Comprehensive Survey [77.16803297418201]
グラフ上の大規模言語モデルに関連するシナリオとテクニックを体系的にレビューする。
まず,LLMをグラフに適用する可能性シナリオを,純グラフ,テキスト分散グラフ,テキストペアグラフの3つのカテゴリにまとめる。
本稿では,そのような手法の現実的な応用について論じ,オープンソースコードとベンチマークデータセットを要約する。
論文 参考訳(メタデータ) (2023-12-05T14:14:27Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、13のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - Enabling Language Models to Fill in the Blanks [81.59381915581892]
文書中の任意の位置にあるテキストの欠落を予測するタスクである,テキストを埋め込むためのシンプルなアプローチを提案する。
我々は、人工的にマスキングされたテキストと隠蔽されたテキストの連結を含むシーケンスに基づいて、オフザシェルフ言語モデル(またはファインチューン)を訓練する。
言語モデリングにより,この手法により,3つの分野(短編,科学的な要約,歌詞)において,LMが文全体を効果的に埋め込むことができることを示す。
論文 参考訳(メタデータ) (2020-05-11T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。