論文の概要: HieroLM: Egyptian Hieroglyph Recovery with Next Word Prediction Language Model
- arxiv url: http://arxiv.org/abs/2503.04996v1
- Date: Thu, 06 Mar 2025 21:53:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:22:29.707403
- Title: HieroLM: Egyptian Hieroglyph Recovery with Next Word Prediction Language Model
- Title(参考訳): HieroLM: 次の単語予測言語モデルによるエジプトのヒエログリフ回復
- Authors: Xuheng Cai, Erica Zhang,
- Abstract要約: エジプトのヒエログリフは多くの古代エジプトの遺物から発見されているが、浸食によってぼやけたり、行方不明になったりすることが多い。
ぼやけたヒエログリフの復元には、CNNやモデルヒエログリフリカバリといったコンピュータビジョン技術が用いられている。
本稿では,次の単語予測タスクとしてヒエログリフ回復をモデル化し,それに対応する言語モデルを提案する。
- 参考スコア(独自算出の注目度): 1.1510009152620668
- License:
- Abstract: Egyptian hieroglyphs are found on numerous ancient Egyptian artifacts, but it is common that they are blurry or even missing due to erosion. Existing efforts to restore blurry hieroglyphs adopt computer vision techniques such as CNNs and model hieroglyph recovery as an image classification task, which suffers from two major limitations: (i) They cannot handle severely damaged or completely missing hieroglyphs. (ii) They make predictions based on a single hieroglyph without considering contextual and grammatical information. This paper proposes a novel approach to model hieroglyph recovery as a next word prediction task and use language models to address it. We compare the performance of different SOTA language models and choose LSTM as the architecture of our HieroLM due to the strong local affinity of semantics in Egyptian hieroglyph texts. Experiments show that HieroLM achieves over 44% accuracy and maintains notable performance on multi-shot predictions and scarce data, which makes it a pragmatic tool to assist scholars in inferring missing hieroglyphs. It can also complement CV-based models to significantly reduce perplexity in recognizing blurry hieroglyphs. Our code is available at https://github.com/Rick-Cai/HieroLM/.
- Abstract(参考訳): エジプトのヒエログリフは多くの古代エジプトの遺物から発見されているが、浸食によってぼやけたり、行方不明になったりすることが多い。
ぼやけたヒエログリフを復元するための既存の取り組みでは、CNNのようなコンピュータビジョン技術とモデルヒエログリフリカバリを画像分類タスクとして採用している。
一 甚大な損傷又は完全に欠落したヒエログリフに対処できないこと。
(2)文脈情報や文法情報を考慮せずに単一のヒエログリフに基づいて予測を行う。
本稿では,次の単語予測タスクとしてヒエログリフ回復をモデル化し,それに対応する言語モデルを提案する。
我々は異なるSOTA言語モデルの性能を比較し、エジプトのヒエログリフテキストにおけるセマンティクスの強い局所親和性から、我々のHieroLMのアーキテクチャとしてLSTMを選択する。
実験の結果,HieroLMは44%以上の精度を達成し,マルチショット予測や不足データにおいて顕著な性能を維持していることが明らかとなった。
また、CVベースのモデルを補完することで、ぼやけたヒエログリフを認識する際の難易度を大幅に低減することができる。
私たちのコードはhttps://github.com/Rick-Cai/HieroLM/で利用可能です。
関連論文リスト
- Negation Blindness in Large Language Models: Unveiling the NO Syndrome in Image Generation [63.064204206220936]
基礎的な大規模言語モデル(LLM)は、私たちが技術を理解する方法を変えました。
詩の執筆からコーディング、エッセイ生成、パズルの解決まで、様々な課題に長けていることが示されている。
画像生成機能の導入により、より包括的で汎用的なAIツールとなった。
現在特定されている欠陥には、幻覚、偏見、有害なコンテンツを生成するために制限されたコマンドをバイパスすることが含まれる。
論文 参考訳(メタデータ) (2024-08-27T14:40:16Z) - Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics [50.982315553104975]
本稿では,Llama2という人気言語モデルに対する語彙意味論のボトムアップ進化について検討する。
実験の結果,下位層の表現は語彙的意味論を符号化しているが,上位層はより弱い意味帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰属的帰属的帰属的帰属的存在であることがわかった。
これは、高層層がより良い語彙意味論を得るマスク言語モデリングのような差別的な目的を持つモデルとは対照的である。
論文 参考訳(メタデータ) (2024-03-03T13:14:47Z) - Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning [90.13978453378768]
生成したチャートキャプションに事実誤りを包括的に分類する。
大規模な人間のアノテーションの取り組みは、様々なチャートキャプションモデルによって作られたキャプションのエラーパターンと頻度に関する洞察を提供する。
分析の結果,GPT-4Vを含む最先端モデルでさえ,事実不正確なキャプションを頻繁に生成していることが判明した。
論文 参考訳(メタデータ) (2023-12-15T19:16:21Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - AGTGAN: Unpaired Image Translation for Photographic Ancient Character
Generation [27.77329906930072]
本稿では,AGTGAN と呼ばれる非教師付き生成敵ネットワークを提案する。
グローバルなグリフ形状と局所的なグリフ形状のモデリングにより,多様なグリフと現実的なテクスチャを持つキャラクタを生成することができる。
得られた画像から,最大写真オラクル骨キャラクタデータセットを用いた実験により,分類精度を最大16.34%向上させることができた。
論文 参考訳(メタデータ) (2023-03-13T11:18:41Z) - Artifact Reduction in Fundus Imaging using Cycle Consistent Adversarial
Neural Networks [0.0]
ディープラーニングは、人間の介入をあまり必要とせずにデータからパターンを抽出する強力なツールである。
根底のイメージに存在するこれらのアーティファクトを自動的に修正する試みが試みられている。
残余ブロックからなるCycleGANベースのモデルを用いて,画像中のアーティファクトを削減する。
論文 参考訳(メタデータ) (2021-12-25T18:05:48Z) - Filling the Gaps in Ancient Akkadian Texts: A Masked Language Modelling
Approach [8.00388161728995]
我々は、古代メソポタミアの文書の文字化を前提とした、欠落したテキストを完遂するモデルを提案する。
タブレットの劣化のため、学者はテキストの欠落部分を手作業で埋めるために文脈的な手がかりに頼っていることが多い。
論文 参考訳(メタデータ) (2021-09-09T18:58:14Z) - Font Completion and Manipulation by Cycling Between Multi-Modality
Representations [113.26243126754704]
中間表現としてグラフを用いた2次元グラフィックオブジェクトとしてフォントグリフの生成を探求する。
我々は、画像エンコーダと画像の間のグラフで、モダリティサイクルのイメージ・ツー・イメージ構造を定式化する。
本モデルでは,画像から画像までのベースラインと,それ以前のグリフ補完手法よりも改善された結果を生成する。
論文 参考訳(メタデータ) (2021-08-30T02:43:29Z) - Few-Shot Font Generation with Deep Metric Learning [33.12829580813688]
提案するフレームワークは、スタイルエンコーダにディープメトリック学習を導入している。
白黒フォントと形状識別フォントのデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2020-11-04T10:12:10Z) - PhishGAN: Data Augmentation and Identification of Homoglpyh Attacks [0.0]
ホモグリフ攻撃(Homoglyph attack)は、ハッカーがフィッシングを行うのに使われる一般的なテクニックである。実際のフィッシングと視覚的に類似したドメイン名やリンクは、攻撃を難読化するためにペニーコードによって生成される。
本稿では,ヒエログリフの画像を生成するために,条件付き生成適応ネットワーク(GAN)であるPhishGANを用いる方法を示す。
論文 参考訳(メタデータ) (2020-06-24T13:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。