Fugu-MT 論文翻訳(概要): HieroLM: Egyptian Hieroglyph Recovery with Next Word Prediction Language Model

論文の概要: HieroLM: Egyptian Hieroglyph Recovery with Next Word Prediction Language Model

arxiv url: http://arxiv.org/abs/2503.04996v1
Date: Thu, 06 Mar 2025 21:53:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-10 19:13:14.809441
Title: HieroLM: Egyptian Hieroglyph Recovery with Next Word Prediction Language Model
Title（参考訳）: HieroLM: 次の単語予測言語モデルによるエジプトのヒエログリフ回復
Authors: Xuheng Cai, Erica Zhang,
Abstract要約: エジプトのヒエログリフは多くの古代エジプトの遺物から発見されているが、浸食によってぼやけたり、行方不明になったりすることが多い。ぼやけたヒエログリフの復元には、CNNやモデルヒエログリフリカバリといったコンピュータビジョン技術が用いられている。本稿では,次の単語予測タスクとしてヒエログリフ回復をモデル化し,それに対応する言語モデルを提案する。
参考スコア（独自算出の注目度）: 1.1510009152620668
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Egyptian hieroglyphs are found on numerous ancient Egyptian artifacts, but it is common that they are blurry or even missing due to erosion. Existing efforts to restore blurry hieroglyphs adopt computer vision techniques such as CNNs and model hieroglyph recovery as an image classification task, which suffers from two major limitations: (i) They cannot handle severely damaged or completely missing hieroglyphs. (ii) They make predictions based on a single hieroglyph without considering contextual and grammatical information. This paper proposes a novel approach to model hieroglyph recovery as a next word prediction task and use language models to address it. We compare the performance of different SOTA language models and choose LSTM as the architecture of our HieroLM due to the strong local affinity of semantics in Egyptian hieroglyph texts. Experiments show that HieroLM achieves over 44% accuracy and maintains notable performance on multi-shot predictions and scarce data, which makes it a pragmatic tool to assist scholars in inferring missing hieroglyphs. It can also complement CV-based models to significantly reduce perplexity in recognizing blurry hieroglyphs. Our code is available at https://github.com/Rick-Cai/HieroLM/.
Abstract（参考訳）: エジプトのヒエログリフは多くの古代エジプトの遺物から発見されているが、浸食によってぼやけたり、行方不明になったりすることが多い。ぼやけたヒエログリフを復元するための既存の取り組みでは、CNNのようなコンピュータビジョン技術とモデルヒエログリフリカバリを画像分類タスクとして採用している。一甚大な損傷又は完全に欠落したヒエログリフに対処できないこと。 (2)文脈情報や文法情報を考慮せずに単一のヒエログリフに基づいて予測を行う。本稿では,次の単語予測タスクとしてヒエログリフ回復をモデル化し,それに対応する言語モデルを提案する。我々は異なるSOTA言語モデルの性能を比較し、エジプトのヒエログリフテキストにおけるセマンティクスの強い局所親和性から、我々のHieroLMのアーキテクチャとしてLSTMを選択する。実験の結果,HieroLMは44%以上の精度を達成し,マルチショット予測や不足データにおいて顕著な性能を維持していることが明らかとなった。また、CVベースのモデルを補完することで、ぼやけたヒエログリフを認識する際の難易度を大幅に低減することができる。私たちのコードはhttps://github.com/Rick-Cai/HieroLM/で利用可能です。

関連論文リスト

Enabling Stroke-Level Structural Analysis of Hieroglyphic Scripts without Language-Specific Priors [13.56721856255538]
ヒエログリフ・ストローク・アナライザー(HieroSA)は、ヒエログリフと古代ヒエログリフの文字イメージを明示的で解釈可能な線分表現に変換するフレームワークである。 HieroSAは文字内構造や意味を効果的に捉え、言語固有の先行詞の必要性を回避している。
論文参考訳（メタデータ） (2026-01-09T03:30:12Z)
HieroGlyphTranslator: Automatic Recognition and Translation of Egyptian Hieroglyphs to English [0.14053129774629072]
本稿では,古代エジプトのヒエログリフを画像から英語に自動認識・翻訳する手法を提案する。このモデルはBLEUスコア42.2を達成したが、これは以前の研究と比べて大きな結果となった。
論文参考訳（メタデータ） (2025-12-03T14:05:18Z)
PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions [55.95282725491425]
PoShは、LLMs-as-a-Judgeをガイドするために、シーングラフを構造化ルーリックとして使用する詳細な画像記述のメトリクスである。 PoShはレプリカ可能で、解釈可能で、既存のメトリクスよりも人間のレーダのプロキシが優れている。我々は,オープンウェイトな選択肢よりも,DOCENTにおける人間の判断とPoShの相関が強いことを示す。
論文参考訳（メタデータ） (2025-10-21T20:30:20Z)
Robustness in Both Domains: CLIP Needs a Robust Text Encoder [55.348860778166426]
LEAFはテキストドメインの効率の良い逆方向の微調整手法であり、大きなCLIPモデルにスケールできる。我々のモデルは、ロバスト画像エンコーダによる視力性能を維持しながら、テキスト領域におけるゼロショット対角精度を著しく向上させる。我々は,ロバストテキストエンコーダが直接最適化による埋め込みから入力テキストの再構築を容易にすることを示す。
論文参考訳（メタデータ） (2025-06-03T19:57:09Z)
A Vision-Language Foundation Model for Leaf Disease Identification [0.0]
葉の病原性同定は、スマート農業において重要な役割を担っている。既存の多くの研究は、互いの限界を補うために画像とテキストのモダリティを統合するのに依然として苦労している。これらの課題に対処する文脈対応の視覚言語基盤モデルであるSCOLDを提案する。
論文参考訳（メタデータ） (2025-05-11T15:30:06Z)
Neural Style Transfer for Synthesising a Dataset of Ancient Egyptian Hieroglyphs [0.0]
本稿では,NSTをデジタル書体に適用することにより,古代エジプトのヒエログリフのデータセットを生成する新しい手法を提案する。実験結果から,NST生成例と写真に基づいて訓練した画像分類モデルが,実際のヒエログリフ画像と同等の性能と転写性を示した。
論文参考訳（メタデータ） (2025-04-02T22:30:45Z)
Web Artifact Attacks Disrupt Vision Language Models [61.59021920232986]
視覚言語モデル(VLM)は、大規模で軽量にキュレートされたWebデータセットに基づいて訓練されている。意味概念と無関係な視覚信号の間に意図しない相関関係を学習する。これまでの研究は、これらの相関関係をモデル予測を操作するための攻撃ベクトルとして武器化してきた。非マッチングテキストとグラフィカル要素の両方を使ってモデルを誤解させる新しい操作クラスである、アーティファクトベースのアタックを紹介します。
論文参考訳（メタデータ） (2025-03-17T18:59:29Z)
What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文参考訳（メタデータ） (2024-05-01T12:49:57Z)
Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics [50.982315553104975]
本稿では,Llama2という人気言語モデルに対する語彙意味論のボトムアップ進化について検討する。実験の結果,下位層の表現は語彙的意味論を符号化しているが,上位層はより弱い意味帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰属的帰属的帰属的帰属的存在であることがわかった。これは、高層層がより良い語彙意味論を得るマスク言語モデリングのような差別的な目的を持つモデルとは対照的である。
論文参考訳（メタデータ） (2024-03-03T13:14:47Z)
Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning [90.13978453378768]
生成したチャートキャプションに事実誤りを包括的に分類する。大規模な人間のアノテーションの取り組みは、様々なチャートキャプションモデルによって作られたキャプションのエラーパターンと頻度に関する洞察を提供する。分析の結果,GPT-4Vを含む最先端モデルでさえ,事実不正確なキャプションを頻繁に生成していることが判明した。
論文参考訳（メタデータ） (2023-12-15T19:16:21Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)
TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文参考訳（メタデータ） (2023-05-23T15:44:56Z)
Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文参考訳（メタデータ） (2023-04-02T10:25:09Z)
AGTGAN: Unpaired Image Translation for Photographic Ancient Character Generation [27.77329906930072]
本稿では,AGTGAN と呼ばれる非教師付き生成敵ネットワークを提案する。グローバルなグリフ形状と局所的なグリフ形状のモデリングにより,多様なグリフと現実的なテクスチャを持つキャラクタを生成することができる。得られた画像から,最大写真オラクル骨キャラクタデータセットを用いた実験により,分類精度を最大16.34%向上させることができた。
論文参考訳（メタデータ） (2023-03-13T11:18:41Z)
Artifact Reduction in Fundus Imaging using Cycle Consistent Adversarial Neural Networks [0.0]
ディープラーニングは、人間の介入をあまり必要とせずにデータからパターンを抽出する強力なツールである。根底のイメージに存在するこれらのアーティファクトを自動的に修正する試みが試みられている。残余ブロックからなるCycleGANベースのモデルを用いて,画像中のアーティファクトを削減する。
論文参考訳（メタデータ） (2021-12-25T18:05:48Z)
Filling the Gaps in Ancient Akkadian Texts: A Masked Language Modelling Approach [8.00388161728995]
我々は、古代メソポタミアの文書の文字化を前提とした、欠落したテキストを完遂するモデルを提案する。タブレットの劣化のため、学者はテキストの欠落部分を手作業で埋めるために文脈的な手がかりに頼っていることが多い。
論文参考訳（メタデータ） (2021-09-09T18:58:14Z)
Font Completion and Manipulation by Cycling Between Multi-Modality Representations [113.26243126754704]
中間表現としてグラフを用いた2次元グラフィックオブジェクトとしてフォントグリフの生成を探求する。我々は、画像エンコーダと画像の間のグラフで、モダリティサイクルのイメージ・ツー・イメージ構造を定式化する。本モデルでは,画像から画像までのベースラインと,それ以前のグリフ補完手法よりも改善された結果を生成する。
論文参考訳（メタデータ） (2021-08-30T02:43:29Z)
Few-Shot Font Generation with Deep Metric Learning [33.12829580813688]
提案するフレームワークは、スタイルエンコーダにディープメトリック学習を導入している。白黒フォントと形状識別フォントのデータセットを用いて実験を行った。
論文参考訳（メタデータ） (2020-11-04T10:12:10Z)
PhishGAN: Data Augmentation and Identification of Homoglpyh Attacks [0.0]
ホモグリフ攻撃(Homoglyph attack)は、ハッカーがフィッシングを行うのに使われる一般的なテクニックである。実際のフィッシングと視覚的に類似したドメイン名やリンクは、攻撃を難読化するためにペニーコードによって生成される。本稿では,ヒエログリフの画像を生成するために,条件付き生成適応ネットワーク(GAN)であるPhishGANを用いる方法を示す。
論文参考訳（メタデータ） (2020-06-24T13:59:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。