論文の概要: Specializing Large Models for Oracle Bone Script Interpretation via Component-Grounded Multimodal Knowledge Augmentation
- arxiv url: http://arxiv.org/abs/2604.06711v1
- Date: Wed, 08 Apr 2026 06:05:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.360035
- Title: Specializing Large Models for Oracle Bone Script Interpretation via Component-Grounded Multimodal Knowledge Augmentation
- Title(参考訳): コンポーネント型マルチモーダル知識拡張によるOracle Bone Script解釈のための大規模モデルの特化
- Authors: Jianing Zhang, Runan Li, Honglin Pang, Ding Xia, Zhou Zhu, Qian Zhang, Chuntao Li, Xi Yang,
- Abstract要約: 古代中国のOracle Bone Script(OBS)の解読は、古代の信念、システム、文化に関する洞察を提供する難しいタスクである。
「既存の手法は、解読を閉集合画像認識問題として扱い、解釈ギャップを埋めることに失敗する」
- 参考スコア(独自算出の注目度): 13.59285305119099
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deciphering ancient Chinese Oracle Bone Script (OBS) is a challenging task that offers insights into the beliefs, systems, and culture of the ancient era. Existing approaches treat decipherment as a closed-set image recognition problem, which fails to bridge the ``interpretation gap'': while individual characters are often unique and rare, they are composed of a limited set of recurring, pictographic components that carry transferable semantic meanings. To leverage this structural logic, we propose an agent-driven Vision-Language Model (VLM) framework that integrates a VLM for precise visual grounding with an LLM-based agent to automate a reasoning chain of component identification, graph-based knowledge retrieval, and relationship inference for linguistically accurate interpretation. To support this, we also introduce OB-Radix, an expert-annotated dataset providing structural and semantic data absent from prior corpora, comprising 1,022 character images (934 unique characters) and 1,853 fine-grained component images across 478 distinct components with verified explanations. By evaluating our system across three benchmarks of different tasks, we demonstrate that our framework yields more detailed and precise decipherments compared to baseline methods.
- Abstract(参考訳): 古代中国のOracle Bone Script(OBS)の解読は、古代の信念、システム、文化に関する洞察を提供する難しいタスクである。
既存のアプローチでは、解読を閉集合画像認識問題として扱うが、これは '`解釈ギャップ'' をブリッジするのに失敗する。
この構造的論理を活用するために, エージェント駆動型視覚言語モデル (VLM) フレームワークを提案する。このフレームワークは, 正確な視覚的接地のためのVLMと, LLMをベースとしたエージェントを統合し, コンポーネント識別, グラフに基づく知識検索, 言語学的に正確な解釈のための関係推論の論理的連鎖を自動化する。
OB-Radixは,約1,022文字画像(934文字)と,478個の異なるコンポーネントにまたがる1,853個の細粒度成分画像からなる,事前コーパスから欠落した構造的・意味的データを提供する,専門家による注釈付きデータセットである。
異なるタスクの3つのベンチマークにまたがってシステムを評価することで、ベースライン法と比較してより詳細に正確な解読ができることを示す。
関連論文リスト
- Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。
VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。
提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-09-23T16:22:27Z) - Multigranular Evaluation for Brain Visual Decoding [5.19485079754946]
既存の脳視覚復号のための評価プロトコルは、モデル間の違いを曖昧にし、神経科学的な基礎を欠き、きめ細かい視覚的区別を捉えることができない粗いメトリクスに依存している。
本稿では, 構造的忠実度, 推論的アライメント, 文脈的コヒーレンスを両立する, 統合された多粒性評価フレームワークであるBASICを紹介する。
構造レベルでは,フォアグラウンド,セマンティック,インスタンス,コンポーネントマスクなど,階層的なセグメンテーションに基づくメトリクススイートを導入する。
意味レベルでは、多目的大を用いてオブジェクト、属性、関係を含む構造化されたシーン表現を抽出する。
論文 参考訳(メタデータ) (2025-07-10T17:59:24Z) - OracleFusion: Assisting the Decipherment of Oracle Bone Script with Structurally Constrained Semantic Typography [58.790901822971094]
Oracle Bone Script (OBS) は古代文明の文化記録と知的表現をカプセル化している。
約4,500のOBS文字が発見されたが、解読されたのは1,600文字程度である。
本稿では,OracleFusionという新しい2段階セマンティックフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-26T08:56:07Z) - Linguistics-aware Masked Image Modeling for Self-supervised Scene Text Recognition [50.86415025650168]
マスク付き画像モデリング(MIM)は、局所的な構造を利用して視覚パターンを再構築する傾向があり、言語知識は限られている。
本稿では,言語情報とMIMの復号過程を別ブランチで関連づける,言語学対応の仮面画像モデリング(LMIM)手法を提案する。
論文 参考訳(メタデータ) (2025-03-24T14:53:35Z) - Cognitive Disentanglement for Referring Multi-Object Tracking [28.325814292139686]
本稿では,CDRMT(Cognitive Disentanglement for Referring Multi-Object Tracking)フレームワークを提案する。
CDRMTは人間の視覚処理システムからRMOTタスクへの"What"と"where"の経路を適応させる。
異なるベンチマークデータセットの実験では、CDRMTが最先端のメソッドよりも大幅に改善されていることが示されている。
論文 参考訳(メタデータ) (2025-03-14T15:21:54Z) - OracleSage: Towards Unified Visual-Linguistic Understanding of Oracle Bone Scripts through Cross-Modal Knowledge Fusion [19.788896054132053]
中国最古の成熟した書記システムであるOracle bone script (OBS) は、自動認識において重大な課題を提起している。
私たちは、階層的な視覚的理解とグラフベースのセマンティック推論を統合する新しいクロスモーダルフレームワークであるOracleSageを紹介します。
論文 参考訳(メタデータ) (2024-11-26T19:26:06Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。