論文の概要: OracleAgent: A Multimodal Reasoning Agent for Oracle Bone Script Research
- arxiv url: http://arxiv.org/abs/2510.26114v1
- Date: Thu, 30 Oct 2025 03:54:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.650573
- Title: OracleAgent: A Multimodal Reasoning Agent for Oracle Bone Script Research
- Title(参考訳): OracleAgent: Oracle Bone Script Researchのためのマルチモーダル推論エージェント
- Authors: Caoshuo Li, Zengmao Ding, Xiaobin Hu, Bang Li, Donghao Luo, Xu Peng, Taisong Jin, Yongge Liu, Shengwei Han, Jing Yang, Xiaoping He, Feng Gao, AndyPian Wu, SevenShu, Chaoyang Wang, Chengjie Wang,
- Abstract要約: Oracle Bone Script (OBS) は、古代文明の文化的・知的遺産を保存する最も初期の書記システムの一つである。
現在のOBS研究は,(1) OBSの解釈は複雑なワークフローを伴い,(2) OBS情報組織と検索の効率は依然として重要なボトルネックである。
本稿では,OBS関連情報の構造化管理と検索を目的とした,最初のエージェントシステムであるOracleAgentについて述べる。
- 参考スコア(独自算出の注目度): 44.67198252288494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As one of the earliest writing systems, Oracle Bone Script (OBS) preserves the cultural and intellectual heritage of ancient civilizations. However, current OBS research faces two major challenges: (1) the interpretation of OBS involves a complex workflow comprising multiple serial and parallel sub-tasks, and (2) the efficiency of OBS information organization and retrieval remains a critical bottleneck, as scholars often spend substantial effort searching for, compiling, and managing relevant resources. To address these challenges, we present OracleAgent, the first agent system designed for the structured management and retrieval of OBS-related information. OracleAgent seamlessly integrates multiple OBS analysis tools, empowered by large language models (LLMs), and can flexibly orchestrate these components. Additionally, we construct a comprehensive domain-specific multimodal knowledge base for OBS, which is built through a rigorous multi-year process of data collection, cleaning, and expert annotation. The knowledge base comprises over 1.4M single-character rubbing images and 80K interpretation texts. OracleAgent leverages this resource through its multimodal tools to assist experts in retrieval tasks of character, document, interpretation text, and rubbing image. Extensive experiments demonstrate that OracleAgent achieves superior performance across a range of multimodal reasoning and generation tasks, surpassing leading mainstream multimodal large language models (MLLMs) (e.g., GPT-4o). Furthermore, our case study illustrates that OracleAgent can effectively assist domain experts, significantly reducing the time cost of OBS research. These results highlight OracleAgent as a significant step toward the practical deployment of OBS-assisted research and automated interpretation systems.
- Abstract(参考訳): 初期の書記システムの一つとして、Oracle Bone Script (OBS) は古代文明の文化的・知的遺産を保存している。
しかし、現在のOBS研究は、2つの大きな課題に直面している。(1) OBSの解釈は、複数のシリアルおよび並列サブタスクからなる複雑なワークフローを伴い、(2) OBS情報組織と検索の効率は、研究者がしばしば関連するリソースの探索、コンパイル、管理に多大な努力を払っているため、依然として重要なボトルネックとなっている。
これらの課題に対処するために,OBS関連情報の構造化管理と検索を目的とした最初のエージェントシステムであるOracleAgentを提案する。
OracleAgentは複数のOBS分析ツールをシームレスに統合し、大きな言語モデル(LLM)によって強化され、これらのコンポーネントを柔軟にオーケストレーションすることができる。
さらに,データ収集,クリーニング,エキスパートアノテーションの多年にわたる厳密なプロセスを通じて構築されたOBSのための包括的ドメイン固有マルチモーダル知識ベースを構築した。
知識ベースは、1.4万以上の単文字ラビング画像と80Kの解釈テキストからなる。
OracleAgentは、このリソースをマルチモーダルツールを通じて活用し、文字、文書、解釈テキスト、ラビングイメージの検索タスクの専門家を支援する。
大規模な実験により、OracleAgentは、主要なマルチモーダルな大規模言語モデル(MLLM)(例: GPT-4o)を超越して、様々なマルチモーダルな推論と生成タスクで優れたパフォーマンスを達成していることが示された。
さらに、私たちのケーススタディは、OracleAgentがドメインの専門家を効果的に支援し、OBS研究の時間コストを大幅に削減できることを示している。
これらの結果は、OracleAgentがOBS支援研究および自動解釈システムの実践的な展開に向けた重要なステップであることを示している。
関連論文リスト
- Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - LLM-based Multi-Agent Blackboard System for Information Discovery in Data Science [69.1690891731311]
従来のAIモデルのためのブラックボードアーキテクチャに着想を得た,新しいマルチエージェント通信パラダイムを提案する。
このフレームワークでは、中央エージェントが共有ブラックボードにリクエストをポストし、自律的な従属エージェントがその能力に基づいて応答する。
明示的なデータ発見を必要とする3つのベンチマークに対して,本手法の評価を行った。
論文 参考訳(メタデータ) (2025-09-30T22:34:23Z) - OracleFusion: Assisting the Decipherment of Oracle Bone Script with Structurally Constrained Semantic Typography [58.790901822971094]
Oracle Bone Script (OBS) は古代文明の文化記録と知的表現をカプセル化している。
約4,500のOBS文字が発見されたが、解読されたのは1,600文字程度である。
本稿では,OracleFusionという新しい2段階セマンティックフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-26T08:56:07Z) - Boost, Disentangle, and Customize: A Robust System2-to-System1 Pipeline for Code Generation [58.799397354312596]
大規模言語モデル(LLM)は、様々な領域、特にシステム1タスクにおいて顕著な機能を示した。
System2-to-System1法に関する最近の研究が急増し、推論時間計算によるシステム2の推論知識が探索された。
本稿では,システム2タスクの代表的タスクであるコード生成に注目し,主な課題を2つ挙げる。
論文 参考訳(メタデータ) (2025-02-18T03:20:50Z) - Explainable Multi-Modal Data Exploration in Natural Language via LLM Agent [6.147666891384964]
XMODEは自然言語で説明可能なマルチモーダルデータ探索を可能にするシステムである。
XMODEは、マルチモーダル情報システムの探索を可能にする現実世界のユースケースにインスパイアされている。
論文 参考訳(メタデータ) (2024-12-24T13:42:44Z) - OBI-Bench: Can LMMs Aid in Study of Ancient Script on Oracle Bones? [40.226986425846825]
OBIベンチ(OBI-Bench, OBI-Bench, OBI-Bench)は,大口径マルチモーダルモデル(LMM)を全プロセスで評価するための総合的なベンチマークである。
OBI-Benchは、5,523個の細心の注意を払って収集された多様なソース画像を含み、認識、再結合、分類、検索、解読の5つの主要な領域問題をカバーする。
既存のベンチマークとは異なり、OBI-Benchは高度な視覚認識とOBI固有の知識による推論に焦点を当てており、専門家が直面しているようなタスクを実行するためにLMMに挑戦している。
論文 参考訳(メタデータ) (2024-12-02T06:31:28Z) - Oracle Bone Inscriptions Multi-modal Dataset [58.20314888996118]
オラクルの骨碑文(Oracle bone inscriptions, OBI)は中国最古の書記体系であり、初期の上海の歴史や古史の貴重な実例を記している。
本稿では,10,077個のオラクル骨の注釈情報を含むOracle Bone Inscriptions Multi-modalデータセットを提案する。
このデータセットは、OBIの文字検出と認識、ラビングDenoising、キャラクタマッチング、キャラクタ生成、読み込みシーケンス予測、ミスキャラクタ補完タスクなど、OBIの分野に関連するさまざまなAI関連研究タスクに使用することができる。
論文 参考訳(メタデータ) (2024-07-04T12:47:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。