論文の概要: OracleSage: Towards Unified Visual-Linguistic Understanding of Oracle Bone Scripts through Cross-Modal Knowledge Fusion
- arxiv url: http://arxiv.org/abs/2411.17837v1
- Date: Tue, 26 Nov 2024 19:26:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-01 15:52:53.433765
- Title: OracleSage: Towards Unified Visual-Linguistic Understanding of Oracle Bone Scripts through Cross-Modal Knowledge Fusion
- Title(参考訳): OracleSage: クロスモーダル知識融合によるOracle Boneスクリプトの統一型視覚言語的理解を目指して
- Authors: Hanqi Jiang, Yi Pan, Junhao Chen, Zhengliang Liu, Yifan Zhou, Peng Shu, Yiwei Li, Huaqin Zhao, Stephen Mihm, Lewis C Howe, Tianming Liu,
- Abstract要約: 中国最古の成熟した書記システムであるOracle bone script (OBS) は、自動認識において重大な課題を提起している。
私たちは、階層的な視覚的理解とグラフベースのセマンティック推論を統合する新しいクロスモーダルフレームワークであるOracleSageを紹介します。
- 参考スコア(独自算出の注目度): 19.788896054132053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Oracle bone script (OBS), as China's earliest mature writing system, present significant challenges in automatic recognition due to their complex pictographic structures and divergence from modern Chinese characters. We introduce OracleSage, a novel cross-modal framework that integrates hierarchical visual understanding with graph-based semantic reasoning. Specifically, we propose (1) a Hierarchical Visual-Semantic Understanding module that enables multi-granularity feature extraction through progressive fine-tuning of LLaVA's visual backbone, (2) a Graph-based Semantic Reasoning Framework that captures relationships between visual components and semantic concepts through dynamic message passing, and (3) OracleSem, a semantically enriched OBS dataset with comprehensive pictographic and semantic annotations. Experimental results demonstrate that OracleSage significantly outperforms state-of-the-art vision-language models. This research establishes a new paradigm for ancient text interpretation while providing valuable technical support for archaeological studies.
- Abstract(参考訳): 中国最古の成熟した文字体系であるOracle bone script (OBS)は、複雑な画像構造と現代の漢字との相違により、自動認識において重大な課題を呈している。
私たちは、階層的な視覚的理解とグラフベースのセマンティック推論を統合する新しいクロスモーダルフレームワークであるOracleSageを紹介します。
具体的には,(1)LLaVAの視覚的バックボーンの段階的な微調整による多粒度特徴抽出を可能にする階層型視覚意味理解モジュール,(2)動的メッセージパッシングによる視覚的コンポーネントと意味的概念の関係をキャプチャするグラフベースのセマンティック推論フレームワーク,(3)総合的なピクトグラフィとセマンティックアノテーションを備えた意味的にリッチなOBSデータセットであるOracleSemを提案する。
実験の結果、OracleSageは最先端のビジョン言語モデルよりも大幅に優れています。
この研究は、考古学研究に貴重な技術支援を提供しながら、古代のテキスト解釈の新しいパラダイムを確立する。
関連論文リスト
- Text Speaks Louder than Vision: ASCII Art Reveals Textual Biases in Vision-Language Models [93.46875303598577]
視覚言語モデル(VLM)は、マルチモーダル情報処理において急速に進歩しているが、競合する信号の整合性は未解明のままである。
この研究は、VLMがASCIIアートをどう処理するかを考察する。
論文 参考訳(メタデータ) (2025-04-02T10:47:07Z) - Linguistics-aware Masked Image Modeling for Self-supervised Scene Text Recognition [50.86415025650168]
マスク付き画像モデリング(MIM)は、局所的な構造を利用して視覚パターンを再構築する傾向があり、言語知識は限られている。
本稿では,言語情報とMIMの復号過程を別ブランチで関連づける,言語学対応の仮面画像モデリング(LMIM)手法を提案する。
論文 参考訳(メタデータ) (2025-03-24T14:53:35Z) - Relation-aware Hierarchical Prompt for Open-vocabulary Scene Graph Generation [14.82606425343802]
Open-vocabulary Scene Graph Generation (OV-SGG)は、視覚的関係表現とオープンな語彙的テキスト表現を整合させることにより、クローズドセットの仮定の限界を克服する。
既存のOV-SGG法は、固定されたテキスト表現によって制約され、画像テキストアライメントの多様性と精度が制限される。
本稿では,対象物と地域固有の関係情報を統合することでテキスト表現を向上させるRAHP(Relation-Aware Hierarchical Prompting)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-26T02:12:37Z) - Emergent Visual-Semantic Hierarchies in Image-Text Representations [13.300199242824934]
既存の基盤モデルの知識について検討し、視覚・意味的階層の創発的な理解を示すことを明らかにする。
本稿では,階層的理解の探索と最適化を目的としたRadial Embedding (RE)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-11T14:09:42Z) - Bridging Local Details and Global Context in Text-Attributed Graphs [62.522550655068336]
GraphBridgeは、コンテキストテキスト情報を活用することで、ローカルおよびグローバルな視点をブリッジするフレームワークである。
提案手法は最先端性能を実現し,グラフ対応トークン削減モジュールは効率を大幅に向上し,スケーラビリティの問題を解消する。
論文 参考訳(メタデータ) (2024-06-18T13:35:25Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。