論文の概要: Multi-Modal Semantic Parsing for the Interpretation of Tombstone Inscriptions
- arxiv url: http://arxiv.org/abs/2507.04377v1
- Date: Sun, 06 Jul 2025 12:50:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.148972
- Title: Multi-Modal Semantic Parsing for the Interpretation of Tombstone Inscriptions
- Title(参考訳): マルチモーダル・セマンティック・パーシングによる墓石碑文の解釈
- Authors: Xiao Zhang, Johan Bos,
- Abstract要約: 墓石は歴史的かつ文化的に豊かな人工物であり、個人の生活、コミュニティの記憶、歴史物語、芸術的表現をカプセル化している。
今日の多くの墓石は、物理的侵食、破壊、環境劣化、政治的変化など、重要な保存上の課題に直面している。
本稿では,墓石の解釈,整理,検索の改善を目的とした,墓石のデジタル化のための新しいマルチモーダルフレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.8094805916085015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tombstones are historically and culturally rich artifacts, encapsulating individual lives, community memory, historical narratives and artistic expression. Yet, many tombstones today face significant preservation challenges, including physical erosion, vandalism, environmental degradation, and political shifts. In this paper, we introduce a novel multi-modal framework for tombstones digitization, aiming to improve the interpretation, organization and retrieval of tombstone content. Our approach leverages vision-language models (VLMs) to translate tombstone images into structured Tombstone Meaning Representations (TMRs), capturing both image and text information. To further enrich semantic parsing, we incorporate retrieval-augmented generation (RAG) for integrate externally dependent elements such as toponyms, occupation codes, and ontological concepts. Compared to traditional OCR-based pipelines, our method improves parsing accuracy from an F1 score of 36.1 to 89.5. We additionally evaluate the model's robustness across diverse linguistic and cultural inscriptions, and simulate physical degradation through image fusion to assess performance under noisy or damaged conditions. Our work represents the first attempt to formalize tombstone understanding using large vision-language models, presenting implications for heritage preservation.
- Abstract(参考訳): 墓石は歴史的かつ文化的に豊かな人工物であり、個人の生活、コミュニティの記憶、歴史物語、芸術的表現をカプセル化している。
しかし、今日では多くの墓石が、物理的侵食、破壊、環境劣化、政治的変化など、重要な保存上の課題に直面している。
本稿では,墓石の内容の解釈,整理,検索を改善することを目的とした,墓石のデジタル化のための新しいマルチモーダルフレームワークを提案する。
提案手法は視覚言語モデル(VLM)を用いて,墓石の画像を構造化された墓石意味表現(TMR)に翻訳し,画像情報とテキスト情報の両方をキャプチャする。
セマンティックパーシングをさらに強化するために、検索強化生成(RAG)を組み込んで、トポニム、占有コード、存在論的概念などの外部依存要素を統合する。
従来のOCRパイプラインと比較すると,F1スコア36.1から89.5までの解析精度が向上する。
さらに,多種多様な言語や文化の碑文にまたがるモデルの堅牢性を評価し,画像融合による物理的劣化をシミュレートし,ノイズや損傷条件下での性能を評価する。
我々の研究は、大きな視覚言語モデルを用いて墓石の理解を定式化するための最初の試みであり、遺産保存の意義を示している。
関連論文リスト
- TokBench: Evaluating Your Visual Tokenizer before Visual Generation [75.38270351179018]
さまざまな画像トークンやVAEに対して,テキストと顔の復元品質をさまざまな尺度で分析する。
以上の結果から, 現代の視覚トークン化器は, 特に小規模では, 細粒度保存に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-23T17:52:16Z) - ArtRAG: Retrieval-Augmented Generation with Structured Context for Visual Art Understanding [16.9945713458689]
ArtRAGは、構造化知識と検索強化世代(RAG)を組み合わせた新しいフレームワークである。
推測時には、構造化された検索者が意味的およびトポロジカルなサブグラフを選択して生成をガイドする。
SemArtとArtpediaのデータセットの実験では、ArtRAGがいくつかの高度に訓練されたベースラインを上回っている。
論文 参考訳(メタデータ) (2025-05-09T13:08:27Z) - Restoring Ancient Ideograph: A Multimodal Multitask Neural Network
Approach [11.263700269889654]
本稿では,古文書を復元する新しいマルチモーダルマルチタスク復元モデル(MMRM)を提案する。
文脈理解と、損傷した古代の遺物からの残余の視覚情報を組み合わせることで、損傷した文字を予測し、同時に復元された画像を生成する。
論文 参考訳(メタデータ) (2024-03-11T12:57:28Z) - Knowledge-Aware Artifact Image Synthesis with LLM-Enhanced Prompting and
Multi-Source Supervision [5.517240672957627]
本稿では,失った歴史的物体を視覚的形状に正確に反映する,知識を意識した新しい人工物画像合成手法を提案する。
既存の手法と比較して,提案手法は文書に含まれる暗黙の細部や歴史的知識とよく一致した高品質なアーティファクト画像を生成する。
論文 参考訳(メタデータ) (2023-12-13T11:03:07Z) - (Re)framing Built Heritage through the Machinic Gaze [3.683202928838613]
機械学習とビジョン技術の普及は、遺産の新たな光学的レギュレーションを生み出している、と我々は主張する。
我々は,AIモデルによる遺産表現の再構成を概念化するために,「機械的視線」という用語を導入する。
論文 参考訳(メタデータ) (2023-10-06T23:48:01Z) - Text-to-Image Generation for Abstract Concepts [76.32278151607763]
抽象概念のためのテキスト・画像生成フレームワーク(TIAC)を提案する。
抽象概念は曖昧さを避けるための詳細な定義で明確な意図に明確化されている。
LLM抽出フォームパターンセットから概念依存型フォームを検索する。
論文 参考訳(メタデータ) (2023-09-26T02:22:39Z) - Exploring Affordance and Situated Meaning in Image Captions: A
Multimodal Analysis [1.124958340749622]
Flickr30kデータセットのイメージに5つの知覚特性(Affordance, Perceptual Salience, Object Number, Cue Gazeing, Ecological Niche Association (ENA))を付加した注釈を付ける。
以上の結果より,ギブソニアの空白画像は,テコールの空白画像と比較して,「保持動詞」と「コンテナ名詞」を含む字幕の頻度が高いことが明らかとなった。
論文 参考訳(メタデータ) (2023-05-24T01:30:50Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。