論文の概要: Restoring Ancient Ideograph: A Multimodal Multitask Neural Network
Approach
- arxiv url: http://arxiv.org/abs/2403.06682v1
- Date: Mon, 11 Mar 2024 12:57:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 19:05:03.157990
- Title: Restoring Ancient Ideograph: A Multimodal Multitask Neural Network
Approach
- Title(参考訳): 古代イデオグラフの復元 - マルチモーダル・マルチタスクニューラルネットワークアプローチ
- Authors: Siyu Duan, Jun Wang, Qi Su
- Abstract要約: 本稿では,古文書を復元する新しいマルチモーダルマルチタスク復元モデル(MMRM)を提案する。
文脈理解と、損傷した古代の遺物からの残余の視覚情報を組み合わせることで、損傷した文字を予測し、同時に復元された画像を生成する。
- 参考スコア(独自算出の注目度): 11.263700269889654
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Cultural heritage serves as the enduring record of human thought and history.
Despite significant efforts dedicated to the preservation of cultural relics,
many ancient artefacts have been ravaged irreversibly by natural deterioration
and human actions. Deep learning technology has emerged as a valuable tool for
restoring various kinds of cultural heritages, including ancient text
restoration. Previous research has approached ancient text restoration from
either visual or textual perspectives, often overlooking the potential of
synergizing multimodal information. This paper proposes a novel Multimodal
Multitask Restoring Model (MMRM) to restore ancient texts, particularly
emphasising the ideograph. This model combines context understanding with
residual visual information from damaged ancient artefacts, enabling it to
predict damaged characters and generate restored images simultaneously. We
tested the MMRM model through experiments conducted on both simulated datasets
and authentic ancient inscriptions. The results show that the proposed method
gives insightful restoration suggestions in both simulation experiments and
real-world scenarios. To the best of our knowledge, this work represents the
pioneering application of multimodal deep learning in ancient text restoration,
which will contribute to the understanding of ancient society and culture in
digital humanities fields.
- Abstract(参考訳): 文化遺産は人間の思考と歴史の持続的な記録となっている。
文化財の保存に多大な努力を払ったにもかかわらず、多くの古代の工芸品は自然の劣化と人間の行動によって不可逆的に破壊されてきた。
深層学習技術は、古代のテキスト復元など、さまざまな文化的遺産を復元するための貴重なツールとして登場した。
これまでの研究は、視覚的あるいはテキスト的視点から古代のテキスト復元にアプローチしており、しばしばマルチモーダル情報の相乗化の可能性を見落としてきた。
本稿では,古文書,特にイデオグラフを強調するマルチモーダルマルチタスク復元モデル(mmrm)を提案する。
このモデルは、コンテキスト理解と損傷した古代遺物の残像情報を組み合わせて、損傷した文字を予測し、同時に復元された画像を生成する。
シミュレーションデータセットと真正銘文の両方で実施した実験により,mmrmモデルの検証を行った。
提案手法はシミュレーション実験と実世界のシナリオの両方において洞察に富んだ復元を提案する。
我々の知る限り、この研究は、デジタル人文科学分野における古代社会と文化の理解に寄与する、古代のテキスト復元におけるマルチモーダル深層学習の先駆的な応用である。
関連論文リスト
- Cultural Heritage 3D Reconstruction with Diffusion Networks [0.6445605125467574]
文化遺産の修復における最近の生成AIアルゴリズムの利用について検討する。
3次元点雲を効率的に再構成するために設計された条件拡散モデル。
論文 参考訳(メタデータ) (2024-10-14T15:43:40Z) - Safeguard Text-to-Image Diffusion Models with Human Feedback Inversion [51.931083971448885]
本稿では,Human Feedback Inversion (HFI) というフレームワークを提案する。
実験の結果,画像品質を維持しながら,好ましくないコンテンツ生成を著しく削減し,公的な領域におけるAIの倫理的展開に寄与することが示された。
論文 参考訳(メタデータ) (2024-07-17T05:21:41Z) - Puzzle Pieces Picker: Deciphering Ancient Chinese Characters with Radical Reconstruction [73.26364649572237]
Oracle Bone Inscriptionsは、世界で最も古い書式である。
多くのOracle Bone Inscriptions (OBI) は未解読のままであり、今日の古生物学におけるグローバルな課題の1つとなっている。
本稿では, 急進的再構成によってこれらの謎的文字を解読する新しい手法, Puzzle Pieces Picker (P$3$) を提案する。
論文 参考訳(メタデータ) (2024-06-05T07:34:39Z) - Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild [57.06779516541574]
SUPIR (Scaling-UP Image Restoration) は、生成前処理とモデルスケールアップのパワーを利用する、画期的な画像復元手法である。
モデルトレーニングのための2000万の高解像度高画質画像からなるデータセットを収集し、それぞれに記述的テキストアノテーションを付加する。
論文 参考訳(メタデータ) (2024-01-24T17:58:07Z) - Knowledge-Aware Artifact Image Synthesis with LLM-Enhanced Prompting and
Multi-Source Supervision [5.517240672957627]
本稿では,失った歴史的物体を視覚的形状に正確に反映する,知識を意識した新しい人工物画像合成手法を提案する。
既存の手法と比較して,提案手法は文書に含まれる暗黙の細部や歴史的知識とよく一致した高品質なアーティファクト画像を生成する。
論文 参考訳(メタデータ) (2023-12-13T11:03:07Z) - (Re)framing Built Heritage through the Machinic Gaze [3.683202928838613]
機械学習とビジョン技術の普及は、遺産の新たな光学的レギュレーションを生み出している、と我々は主張する。
我々は,AIモデルによる遺産表現の再構成を概念化するために,「機械的視線」という用語を導入する。
論文 参考訳(メタデータ) (2023-10-06T23:48:01Z) - ScrollTimes: Tracing the Provenance of Paintings as a Window into
History [35.605930297790465]
考古学や美術史において、文化遺産の遺物、遺産の相続と保存の研究が重要な意味を持つ。
美術史家らと共同で、歴史資料の豊富な資料を提供する伝統的な中国の絵画形式である「ハンズクロル」を調査した。
本報告では,ハンドクロルのための「バイオグラフィー」を作成するために,アーティファクト,コンテキスト,および証明レベルを包含する3段階の方法論を提案する。
論文 参考訳(メタデータ) (2023-06-15T03:38:09Z) - Can Artificial Intelligence Reconstruct Ancient Mosaics? [71.93546109923456]
ここ数年、人工知能(AI)は、テキスト記述や参照画像からの画像の生成において、目覚ましい進歩を遂げてきた。
本稿では,このイノベーティブな技術がモザイクの再構築に有効かどうかを考察する。
結果は、AIがモザイクの重要な特徴を解釈し、シーンの本質を捉えた再構築を生成することができることを示すことを約束している。
論文 参考訳(メタデータ) (2022-10-07T19:42:09Z) - Where Does the Performance Improvement Come From? - A Reproducibility
Concern about Image-Text Retrieval [85.03655458677295]
画像テキスト検索は、情報検索分野において、徐々に主要な研究方向になりつつある。
まず、画像テキスト検索タスクに焦点が当てられている理由と関連性について検討する。
本研究では,事前学習と非事前学習による検索モデルの再現の諸側面を解析する。
論文 参考訳(メタデータ) (2022-03-08T05:01:43Z) - Compositional Scene Representation Learning via Reconstruction: A Survey [48.33349317481124]
構成シーン表現学習はそのような能力を実現するタスクである。
ディープニューラルネットワークは表現学習において有利であることが証明されている。
大量のラベルのないデータを使用し、費用がかかるデータアノテーションを避けることができるため、再構築による学習は有利である。
論文 参考訳(メタデータ) (2022-02-15T02:14:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。