論文の概要: PictOBI-20k: Unveiling Large Multimodal Models in Visual Decipherment for Pictographic Oracle Bone Characters
- arxiv url: http://arxiv.org/abs/2509.05773v1
- Date: Sat, 06 Sep 2025 16:55:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.70492
- Title: PictOBI-20k: Unveiling Large Multimodal Models in Visual Decipherment for Pictographic Oracle Bone Characters
- Title(参考訳): PictOBI-20k:Pictographic Oracle Bone Charactersのための視覚解読における大規模マルチモーダルモデルの構築
- Authors: Zijian Chen, Wenjie Hua, Jinhao Li, Lirong Deng, Fan Du, Tingzhu Chen, Guangtao Zhai,
- Abstract要約: 骨文字(OBC)の解読は、学者の究極的で波及しない目標のままである。
大規模マルチモーダルモデル(LMM)の強力な視覚知覚能力により、OBCの視覚的解読にLMMを使用する可能性が高まった。
我々はPictOBI-20kについて紹介する。PictOBI-20kは、Pictographic OBCの視覚的解読タスクにおけるLMMを評価するために設計されたデータセットである。
- 参考スコア(独自算出の注目度): 42.79020471721956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deciphering oracle bone characters (OBCs), the oldest attested form of written Chinese, has remained the ultimate, unwavering goal of scholars, offering an irreplaceable key to understanding humanity's early modes of production. Current decipherment methodologies of OBC are primarily constrained by the sporadic nature of archaeological excavations and the limited corpus of inscriptions. With the powerful visual perception capability of large multimodal models (LMMs), the potential of using LMMs for visually deciphering OBCs has increased. In this paper, we introduce PictOBI-20k, a dataset designed to evaluate LMMs on the visual decipherment tasks of pictographic OBCs. It includes 20k meticulously collected OBC and real object images, forming over 15k multi-choice questions. We also conduct subjective annotations to investigate the consistency of the reference point between humans and LMMs in visual reasoning. Experiments indicate that general LMMs possess preliminary visual decipherment skills, and LMMs are not effectively using visual information, while most of the time they are limited by language priors. We hope that our dataset can facilitate the evaluation and optimization of visual attention in future OBC-oriented LMMs. The code and dataset will be available at https://github.com/OBI-Future/PictOBI-20k.
- Abstract(参考訳): 最古の証明された中国語の書体である神託骨文字(OBC)の解読は、学者の究極的で波及しない目標のままであり、人類の初期の生産様式を理解するための、不可能な鍵を提供してきた。
現在のOBCの解読手法は、主に考古学的発掘の散発的な性質と碑文の限定的なコーパスによって制約されている。
大規模マルチモーダルモデル(LMM)の強力な視覚知覚能力により、OBCの視覚的解読にLMMを使用する可能性が高まった。
本稿では,PictOBI-20kを提案する。PictOBI-20kは,画像OBCの視覚的解読タスクにおけるLMMを評価するために設計されたデータセットである。
正確に収集されたOBCと実際のオブジェクトイメージが20万件含まれており、15万件以上のマルチチョイスの質問が作成されている。
また、視覚的推論において、人間とLMM間の基準点の整合性を調べるために主観的アノテーションも実施する。
実験の結果、一般のLMMは予備的な視覚的解読能力を有しており、LMMは視覚情報を効果的に利用していないことが示唆された。
我々は,将来のOBC指向LMMにおける視覚的注意度の評価と最適化を容易にすることを期待する。
コードとデータセットはhttps://github.com/OBI-Future/PictOBI-20kで入手できる。
関連論文リスト
- MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly [55.14191042936519]
長文視覚言語モデル(LCVLM)は、数百の画像を1つのフォワードパスでインターリーブされたテキストトークンで処理することができる。
MMLongBenchは、様々な長いコンテキストの視覚言語タスクをカバーする最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-15T17:52:54Z) - Mitigating Long-tail Distribution in Oracle Bone Inscriptions: Dataset, Model, and Benchmark [36.21507457913964]
オラクル骨碑文(OBI)の認識は、古代中国の歴史や文化を理解する上で重要な役割を担っている。
既存のOBIデータセットは長期分布の問題に悩まされ、多数派と少数派の間でOBI認識モデルの性能に偏りが生じる。
我々は,OBIの専門家によるドメイン知識を取り入れた14,542枚の画像からなる,OBI生成と復調のための構造整合型OBIデータセットであるOracle-P15Kを紹介する。
論文 参考訳(メタデータ) (2025-04-13T13:03:25Z) - OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning [72.57452266982642]
OCRBench v2は、大規模なバイリンガルテキスト中心のベンチマークである。
さまざまなシナリオ31、人間検証された質問回答ペア1万、詳細な評価指標をカバーしている。
LMMのスコアは50未満(合計100点)で、5種類の制限に悩まされている。
論文 参考訳(メタデータ) (2024-12-31T07:32:35Z) - OBI-Bench: Can LMMs Aid in Study of Ancient Script on Oracle Bones? [40.226986425846825]
OBIベンチ(OBI-Bench, OBI-Bench, OBI-Bench)は,大口径マルチモーダルモデル(LMM)を全プロセスで評価するための総合的なベンチマークである。
OBI-Benchは、5,523個の細心の注意を払って収集された多様なソース画像を含み、認識、再結合、分類、検索、解読の5つの主要な領域問題をカバーする。
既存のベンチマークとは異なり、OBI-Benchは高度な視覚認識とOBI固有の知識による推論に焦点を当てており、専門家が直面しているようなタスクを実行するためにLMMに挑戦している。
論文 参考訳(メタデータ) (2024-12-02T06:31:28Z) - HumanEval-V: Benchmarking High-Level Visual Reasoning with Complex Diagrams in Coding Tasks [25.959032350818795]
人間のアノテーションによるコーディングタスクのベンチマークであるHumanEval-Vを提案する。
各タスクは、関数シグネチャとテストケースを組み合わせた、慎重に構築されたダイアグラムを備えている。
トップパフォーマンスモデルでさえ、控えめな成功率を実現しています。
論文 参考訳(メタデータ) (2024-10-16T09:04:57Z) - Oracle Bone Inscriptions Multi-modal Dataset [58.20314888996118]
オラクルの骨碑文(Oracle bone inscriptions, OBI)は中国最古の書記体系であり、初期の上海の歴史や古史の貴重な実例を記している。
本稿では,10,077個のオラクル骨の注釈情報を含むOracle Bone Inscriptions Multi-modalデータセットを提案する。
このデータセットは、OBIの文字検出と認識、ラビングDenoising、キャラクタマッチング、キャラクタ生成、読み込みシーケンス予測、ミスキャラクタ補完タスクなど、OBIの分野に関連するさまざまなAI関連研究タスクに使用することができる。
論文 参考訳(メタデータ) (2024-07-04T12:47:32Z) - Compositional Chain-of-Thought Prompting for Large Multimodal Models [46.721769077885966]
CCoT(コンポジション・チェーン・オブ・ソート)は、新規なゼロショット・オブ・ソート・プロンプト法である。
まず,Large Language Model(LLM)を用いてSGを生成し,そのSGをプロンプトに使用して応答を生成する。
提案手法は,LMMの性能向上だけでなく,一般的なマルチモーダルベンチマーク上でのLMMの性能向上にも寄与する。
論文 参考訳(メタデータ) (2023-11-27T22:23:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。