Fugu-MT 論文翻訳(概要): Interpretable Oracle Bone Script Decipherment through Radical and Pictographic Analysis with LVLMs

論文の概要: Interpretable Oracle Bone Script Decipherment through Radical and Pictographic Analysis with LVLMs

arxiv url: http://arxiv.org/abs/2508.10113v2
Date: Sun, 17 Aug 2025 11:45:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-19 12:43:44.902
Title: Interpretable Oracle Bone Script Decipherment through Radical and Pictographic Analysis with LVLMs
Title（参考訳）: LVLMを用いたラジカル・画像解析によるOracle骨スクリプトの解釈
Authors: Kaixin Peng, Mengyang Zhao, Haiyang Yu, Teng Fu, Bin Li,
Abstract要約: 本稿では,大規模視覚言語モデルに基づく解釈可能なOracle Bone Script (OBS) 解読手法を提案する。また,OBS画像と画像解析用テキストを付加した47,157文字のPictographic Decipherment OBSデータセットを提案する。提案手法は最先端のTop-10精度と優れたゼロショット復号能力を実現する。
参考スコア（独自算出の注目度）: 17.78374199471431
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As the oldest mature writing system, Oracle Bone Script (OBS) has long posed significant challenges for archaeological decipherment due to its rarity, abstractness, and pictographic diversity. Current deep learning-based methods have made exciting progress on the OBS decipherment task, but existing approaches often ignore the intricate connections between glyphs and the semantics of OBS. This results in limited generalization and interpretability, especially when addressing zero-shot settings and undeciphered OBS. To this end, we propose an interpretable OBS decipherment method based on Large Vision-Language Models, which synergistically combines radical analysis and pictograph-semantic understanding to bridge the gap between glyphs and meanings of OBS. Specifically, we propose a progressive training strategy that guides the model from radical recognition and analysis to pictographic analysis and mutual analysis, thus enabling reasoning from glyph to meaning. We also design a Radical-Pictographic Dual Matching mechanism informed by the analysis results, significantly enhancing the model's zero-shot decipherment performance. To facilitate model training, we propose the Pictographic Decipherment OBS Dataset, which comprises 47,157 Chinese characters annotated with OBS images and pictographic analysis texts. Experimental results on public benchmarks demonstrate that our approach achieves state-of-the-art Top-10 accuracy and superior zero-shot decipherment capabilities. More importantly, our model delivers logical analysis processes, possibly providing archaeologically valuable reference results for undeciphered OBS, and thus has potential applications in digital humanities and historical research. The dataset and code will be released in https://github.com/PKXX1943/PD-OBS.
Abstract（参考訳）: Oracle Bone Script (OBS) は、最も古い成熟した書き込みシステムである。現在のディープラーニングベースの手法は、OBS解読タスクにおいてエキサイティングな進歩を遂げているが、既存のアプローチでは、グリフとOBSの意味論の複雑な関係を無視することが多い。これにより、特にゼロショット設定や未解読OBSに対処する場合、一般化と解釈性が制限される。そこで本研究では,ラジカル解析とピクトグラフ・セマンティック理解を相乗的に組み合わせ,グリフとOBSの意味のギャップを埋める,Large Vision-Language Modelsに基づく解釈可能なOBS復号法を提案する。具体的には、急進的な認識と分析から、画像解析と相互分析へとモデルを導くプログレッシブトレーニング戦略を提案し、グリフから意味への推論を可能にする。また,解析結果から得られるラディカル・ピクトログラフィ・デュアルマッチング機構を設計し,ゼロショット復号性能を大幅に向上させる。モデルトレーニングを容易にするために,画像解析用テキストにOBS画像と画像解析用テキストを付加した47,157文字のPictographic Decipherment OBSデータセットを提案する。評価実験の結果,提案手法は最先端のTop-10の精度とゼロショット復号能力に優れることがわかった。さらに重要なことは、我々のモデルは論理解析プロセスを提供し、未解読のOBSに考古学的に価値のある参照結果を提供し、デジタル人文科学や歴史的研究に潜在的に応用できる可能性があることである。データセットとコードはhttps://github.com/PKXX 1943/PD-OBSでリリースされる。

関連論文リスト

Combating Spurious Correlations in Graph Interpretability via Self-Reflection [4.81017678027464]
解釈可能なグラフ学習は、機械学習において人気のある研究トピックである。最も難しいのは、ICLR 2022で導入されたSpurious-Motifベンチマークである。本稿では,既存の解釈可能なグラフ学習手法と統合可能な自己回帰フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-16T06:31:16Z)
GRAVER: Generative Graph Vocabularies for Robust Graph Foundation Models Fine-tuning [92.19531718298744]
Graph Foundation Models (GFMs) は、さまざまなグラフタスクやドメインにまたがる広範な適用性を約束している。既存のGFMは不安定な数発の微調整に苦戦している。本稿では,ロバスト GFM ファインチューニングフレームワーク GRAVER を提案する。
論文参考訳（メタデータ） (2025-11-05T13:07:26Z)
GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文参考訳（メタデータ） (2025-09-20T02:38:00Z)
OracleFusion: Assisting the Decipherment of Oracle Bone Script with Structurally Constrained Semantic Typography [58.790901822971094]
Oracle Bone Script (OBS) は古代文明の文化記録と知的表現をカプセル化している。約4,500のOBS文字が発見されたが、解読されたのは1,600文字程度である。本稿では,OracleFusionという新しい2段階セマンティックフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-26T08:56:07Z)
OracleSage: Towards Unified Visual-Linguistic Understanding of Oracle Bone Scripts through Cross-Modal Knowledge Fusion [19.788896054132053]
中国最古の成熟した書記システムであるOracle bone script (OBS) は、自動認識において重大な課題を提起している。私たちは、階層的な視覚的理解とグラフベースのセマンティック推論を統合する新しいクロスモーダルフレームワークであるOracleSageを紹介します。
論文参考訳（メタデータ） (2024-11-26T19:26:06Z)
Scalable Weibull Graph Attention Autoencoder for Modeling Document Networks [50.42343781348247]
解析条件後部を解析し,推論精度を向上させるグラフポアソン因子分析法(GPFA)を開発した。また,GPFAを多層構造に拡張したグラフPoisson gamma belief Network (GPGBN) を用いて,階層的な文書関係を複数の意味レベルで捉える。本モデルでは,高品質な階層型文書表現を抽出し,様々なグラフ解析タスクにおいて有望な性能を実現する。
論文参考訳（メタデータ） (2024-10-13T02:22:14Z)
Deciphering Oracle Bone Language with Diffusion Models [70.69739681961558]
Oracle Bone Script (OBS) は約3,000年前の中国の上海王朝に由来する。本稿では,Oracle Bone Script Decipher(OBSD)の開発を通じて,画像生成技術を採用した新しいアプローチを提案する。 OBSDは、古代の言語のAI支援分析の新しいコースをグラフ化して、解読のための重要な手がかりを生成する。
論文参考訳（メタデータ） (2024-06-02T09:42:23Z)
Enhancing Systematic Decompositional Natural Language Inference Using Informal Logic [51.967603572656266]
我々は,分解包含を注釈付けするための一貫した理論的なアプローチを導入する。我々の新しいデータセットRDTEは、前回の分解エンターメントデータセットよりもかなり高い内部整合性(+9%)を持つことがわかった。また,RDTE による知識蒸留によるエンテーメント分類器の訓練や,エンテーメントツリー推論エンジンへの導入により,精度と検証精度が向上することが確認された。
論文参考訳（メタデータ） (2024-02-22T18:55:17Z)
GPT4Graph: Can Large Language Models Understand Graph Structured Data ? An Empirical Evaluation and Benchmarking [17.7473474499538]
ChatGPTのような大規模言語モデルは、人工知能にとって欠かせないものとなっている。本研究では,グラフデータの解釈において,LLMの精度を評価するための調査を行う。この知見は,言語モデルとグラフ理解のギャップを埋めるための貴重な洞察に寄与する。
論文参考訳（メタデータ） (2023-05-24T11:53:19Z)
Object Relational Graph with Teacher-Recommended Learning for Video Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文参考訳（メタデータ） (2020-02-26T15:34:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。