論文の概要: OBI-Bench: Can LMMs Aid in Study of Ancient Script on Oracle Bones?
- arxiv url: http://arxiv.org/abs/2412.01175v1
- Date: Mon, 02 Dec 2024 06:31:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:49:59.122095
- Title: OBI-Bench: Can LMMs Aid in Study of Ancient Script on Oracle Bones?
- Title(参考訳): OBI-Bench: LMMはOracleの骨に関する古代のスクリプトの研究に役立つか?
- Authors: Zijian Chen, Tingzhu Chen, Wenjun Zhang, Guangtao Zhai,
- Abstract要約: OBIベンチ(OBI-Bench, OBI-Bench, OBI-Bench)は,大口径マルチモーダルモデル(LMM)を全プロセスで評価するための総合的なベンチマークである。
OBI-Benchは、5,523個の細心の注意を払って収集された多様なソース画像を含み、認識、再結合、分類、検索、解読の5つの主要な領域問題をカバーする。
既存のベンチマークとは異なり、OBI-Benchは高度な視覚認識とOBI固有の知識による推論に焦点を当てており、専門家が直面しているようなタスクを実行するためにLMMに挑戦している。
- 参考スコア(独自算出の注目度): 40.226986425846825
- License:
- Abstract: We introduce OBI-Bench, a holistic benchmark crafted to systematically evaluate large multi-modal models (LMMs) on whole-process oracle bone inscriptions (OBI) processing tasks demanding expert-level domain knowledge and deliberate cognition. OBI-Bench includes 5,523 meticulously collected diverse-sourced images, covering five key domain problems: recognition, rejoining, classification, retrieval, and deciphering. These images span centuries of archaeological findings and years of research by front-line scholars, comprising multi-stage font appearances from excavation to synthesis, such as original oracle bone, inked rubbings, oracle bone fragments, cropped single character, and handprinted character. Unlike existing benchmarks, OBI-Bench focuses on advanced visual perception and reasoning with OBI-specific knowledge, challenging LMMs to perform tasks akin to those faced by experts. The evaluation of 6 proprietary LMMs as well as 17 open-source LMMs highlights the substantial challenges and demands posed by OBI-Bench. Even the latest versions of GPT-4o, Gemini 1.5 Pro, and Qwen-VL-Max are still far from public-level humans in some fine-grained perception tasks. However, they perform at a level comparable to untrained humans in deciphering task, indicating remarkable capabilities in offering new interpretative perspectives and generating creative guesses. We hope OBI-Bench can facilitate the community to develop domain-specific multi-modal foundation models towards ancient language research and delve deeper to discover and enhance these untapped potentials of LMMs.
- Abstract(参考訳): OBI-Benchは, OBI処理タスクにおいて, 専門知識と意識的認知を必要とする大規模マルチモーダルモデル(LMM)を体系的に評価するための総合的ベンチマークである。
OBI-Benchは、5,523個の細心の注意を払って収集された多様なソース画像を含み、認識、再結合、分類、検索、解読の5つの主要な領域問題をカバーする。
これらの画像は、何世紀にもわたっての考古学的な発見と、先進的な研究者による研究に及び、発掘から合成までの多段階のフォントの出現、例えば、原骨、インケインケインラビング、オラクルの骨の破片、収穫された単一文字、手書き文字などが含まれる。
既存のベンチマークとは異なり、OBI-Benchは高度な視覚認識とOBI固有の知識による推論に焦点を当てており、専門家が直面しているようなタスクを実行するためにLMMに挑戦している。
6つのプロプライエタリなLMMと17のオープンソースLMMの評価は、OBI-Benchがもたらす重大な課題と要求を強調している。
GPT-4o、Gemini 1.5 Pro、Qwen-VL-Maxの最新バージョンでさえ、いくつかの微妙な認識タスクにおいて、公開レベルの人間には遠く及ばない。
しかし、それらは解読タスクにおいて、訓練されていない人間に匹敵するレベルで実行され、新しい解釈的視点を提供し、創造的な推測を生成する素晴らしい能力を示す。
我々は、OBI-Benchが、古代の言語研究に向けて、ドメイン固有のマルチモーダル基盤モデルの開発をコミュニティに促進し、これらの未解決のLMMの可能性をより深く発見し、強化することを願っている。
関連論文リスト
- EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリでオープンソースなMLLMを13件評価した。
MLLMは高レベルのタスクでは優れているが、低レベルの操作には苦労する。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning [72.57452266982642]
テキスト認識のための大規模バイリンガルテキスト中心ベンチマークであるOCRBench v2を紹介する。
その結果,22 LMM中20 LMMは50点未満(合計100点)で,5種類の制限があることがわかった。
論文 参考訳(メタデータ) (2024-12-31T07:32:35Z) - VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents [50.12414817737912]
大規模マルチモーダルモデル(LMM)は、人工知能の新たな時代を迎え、言語と視覚の融合によって、高い能力を持つVisual Foundation Agentを形成する。
既存のベンチマークでは、複雑な実世界の環境でのLMMの可能性を十分に証明できない。
VisualAgentBench (VAB) は、視覚基礎エージェントとしてLMMを訓練し評価するための先駆的なベンチマークである。
論文 参考訳(メタデータ) (2024-08-12T17:44:17Z) - Oracle Bone Inscriptions Multi-modal Dataset [58.20314888996118]
オラクルの骨碑文(Oracle bone inscriptions, OBI)は中国最古の書記体系であり、初期の上海の歴史や古史の貴重な実例を記している。
本稿では,10,077個のオラクル骨の注釈情報を含むOracle Bone Inscriptions Multi-modalデータセットを提案する。
このデータセットは、OBIの文字検出と認識、ラビングDenoising、キャラクタマッチング、キャラクタ生成、読み込みシーケンス予測、ミスキャラクタ補完タスクなど、OBIの分野に関連するさまざまなAI関連研究タスクに使用することができる。
論文 参考訳(メタデータ) (2024-07-04T12:47:32Z) - A-Bench: Are LMMs Masters at Evaluating AI-generated Images? [78.3699767628502]
A-Benchは、マルチモーダルモデル(LMM)がAI生成画像(AIGI)を評価するマスターであるかどうかを診断するために設計されたベンチマークである。
最終的に、16のテキスト・ツー・イメージモデルの2,864のAIGIがサンプリングされ、それぞれが人間の専門家によって注釈付けされた質問回答と組み合わせられ、18のLMMでテストされる。
論文 参考訳(メタデータ) (2024-06-05T08:55:02Z) - MechGPT, a language-based strategy for mechanics and materials modeling
that connects knowledge across scales, disciplines and modalities [0.0]
我々は,Large Language Model (LLM) を用いて,質問応答対を原料から抽出し,微調整する。
得られたMechGPT LLM基盤モデルは、知識検索、様々な言語タスク、仮説生成、異なる領域にわたる知識の接続能力を調べるために、一連の計算実験で使用される。
論文 参考訳(メタデータ) (2023-10-16T14:29:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。