論文の概要: OBI-Bench: Can LMMs Aid in Study of Ancient Script on Oracle Bones?
- arxiv url: http://arxiv.org/abs/2412.01175v2
- Date: Tue, 11 Feb 2025 14:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:04:44.219668
- Title: OBI-Bench: Can LMMs Aid in Study of Ancient Script on Oracle Bones?
- Title(参考訳): OBI-Bench: LMMはOracleの骨に関する古代のスクリプトの研究に役立つか?
- Authors: Zijian Chen, Tingzhu Chen, Wenjun Zhang, Guangtao Zhai,
- Abstract要約: OBIベンチ(OBI-Bench, OBI-Bench, OBI-Bench)は,大口径マルチモーダルモデル(LMM)を全プロセスで評価するための総合的なベンチマークである。
OBI-Benchは、5,523個の細心の注意を払って収集された多様なソース画像を含み、認識、再結合、分類、検索、解読の5つの主要な領域問題をカバーする。
既存のベンチマークとは異なり、OBI-Benchは高度な視覚認識とOBI固有の知識による推論に焦点を当てており、専門家が直面しているようなタスクを実行するためにLMMに挑戦している。
- 参考スコア(独自算出の注目度): 40.226986425846825
- License:
- Abstract: We introduce OBI-Bench, a holistic benchmark crafted to systematically evaluate large multi-modal models (LMMs) on whole-process oracle bone inscriptions (OBI) processing tasks demanding expert-level domain knowledge and deliberate cognition. OBI-Bench includes 5,523 meticulously collected diverse-sourced images, covering five key domain problems: recognition, rejoining, classification, retrieval, and deciphering. These images span centuries of archaeological findings and years of research by front-line scholars, comprising multi-stage font appearances from excavation to synthesis, such as original oracle bone, inked rubbings, oracle bone fragments, cropped single characters, and handprinted characters. Unlike existing benchmarks, OBI-Bench focuses on advanced visual perception and reasoning with OBI-specific knowledge, challenging LMMs to perform tasks akin to those faced by experts. The evaluation of 6 proprietary LMMs as well as 17 open-source LMMs highlights the substantial challenges and demands posed by OBI-Bench. Even the latest versions of GPT-4o, Gemini 1.5 Pro, and Qwen-VL-Max are still far from public-level humans in some fine-grained perception tasks. However, they perform at a level comparable to untrained humans in deciphering tasks, indicating remarkable capabilities in offering new interpretative perspectives and generating creative guesses. We hope OBI-Bench can facilitate the community to develop domain-specific multi-modal foundation models towards ancient language research and delve deeper to discover and enhance these untapped potentials of LMMs.
- Abstract(参考訳): OBI-Benchは, OBI処理タスクにおいて, 専門知識と意識的認知を必要とする大規模マルチモーダルモデル(LMM)を体系的に評価するための総合的ベンチマークである。
OBI-Benchは、5,523個の細心の注意を払って収集された多様なソース画像を含み、認識、再結合、分類、検索、解読の5つの主要な領域問題をカバーする。
これらの画像は、何世紀にもわたっての考古学的な発見と、先進的な研究者による研究に及び、発掘から合成までの多段階のフォントの出現、例えば、原骨、インケインケインラビング、オラクルの骨の破片、収穫された単文字、手書き文字などが含まれる。
既存のベンチマークとは異なり、OBI-Benchは高度な視覚認識とOBI固有の知識による推論に焦点を当てており、専門家が直面しているようなタスクを実行するためにLMMに挑戦している。
6つのプロプライエタリなLMMと17のオープンソースLMMの評価は、OBI-Benchがもたらす重大な課題と要求を強調している。
GPT-4o、Gemini 1.5 Pro、Qwen-VL-Maxの最新バージョンでさえ、いくつかの微妙な認識タスクにおいて、公開レベルの人間には遠く及ばない。
しかし、それらはタスクの解読において、訓練されていない人間に匹敵するレベルで実行され、新しい解釈的視点を提供し、創造的な推測を生成する際、顕著な能力を示す。
我々は、OBI-Benchが、古代の言語研究に向けて、ドメイン固有のマルチモーダル基盤モデルの開発をコミュニティに促進し、これらの未解決のLMMの可能性をより深く発見し、強化することを願っている。
関連論文リスト
- HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks [25.959032350818795]
HumanEval-Vは、コード生成による大規模言語モデルの視覚的理解と推論能力を評価するために設計されたベンチマークである。
HumanEval-Vには、CodeForcesやStack Overflowといったプラットフォームから派生した、108の慎重に構築されたエントリーレベルのPythonコーディングタスクが含まれている。
我々はHumanEval-Vを用いて19の最先端LMMを評価し、重要な課題を明らかにした。
論文 参考訳(メタデータ) (2024-10-16T09:04:57Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - A Cross-Font Image Retrieval Network for Recognizing Undeciphered Oracle Bone Inscriptions [12.664292922995532]
Oracle Bone Inscription (OBI) は中国で最も初期の成熟した書記システムである。
OBI文字を解読するクロスファント画像検索ネットワーク(CFIRN)を提案する。
論文 参考訳(メタデータ) (2024-09-10T10:04:58Z) - UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios [60.492736455572015]
複雑な多視点都市シナリオにおけるLMM評価のためのベンチマークであるUrBenchを提案する。
UrBenchには、リージョンレベルとロールレベルの両方で、厳密にキュレートされた11.6Kの質問が含まれている。
21のLMMに対する評価は、現在のLMMが都市環境においていくつかの面で苦戦していることを示している。
論文 参考訳(メタデータ) (2024-08-30T13:13:35Z) - VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents [50.12414817737912]
大規模マルチモーダルモデル(LMM)は、人工知能の新たな時代を迎え、言語と視覚の融合によって、高い能力を持つVisual Foundation Agentを形成する。
既存のベンチマークでは、複雑な実世界の環境でのLMMの可能性を十分に証明できない。
VisualAgentBench (VAB) は、視覚基礎エージェントとしてLMMを訓練し評価するための先駆的なベンチマークである。
論文 参考訳(メタデータ) (2024-08-12T17:44:17Z) - Oracle Bone Inscriptions Multi-modal Dataset [58.20314888996118]
オラクルの骨碑文(Oracle bone inscriptions, OBI)は中国最古の書記体系であり、初期の上海の歴史や古史の貴重な実例を記している。
本稿では,10,077個のオラクル骨の注釈情報を含むOracle Bone Inscriptions Multi-modalデータセットを提案する。
このデータセットは、OBIの文字検出と認識、ラビングDenoising、キャラクタマッチング、キャラクタ生成、読み込みシーケンス予測、ミスキャラクタ補完タスクなど、OBIの分野に関連するさまざまなAI関連研究タスクに使用することができる。
論文 参考訳(メタデータ) (2024-07-04T12:47:32Z) - A-Bench: Are LMMs Masters at Evaluating AI-generated Images? [78.3699767628502]
A-Benchは、マルチモーダルモデル(LMM)がAI生成画像(AIGI)を評価するマスターであるかどうかを診断するために設計されたベンチマークである。
最終的に、16のテキスト・ツー・イメージモデルの2,864のAIGIがサンプリングされ、それぞれが人間の専門家によって注釈付けされた質問回答と組み合わせられ、18のLMMでテストされる。
論文 参考訳(メタデータ) (2024-06-05T08:55:02Z) - MechGPT, a language-based strategy for mechanics and materials modeling
that connects knowledge across scales, disciplines and modalities [0.0]
我々は,Large Language Model (LLM) を用いて,質問応答対を原料から抽出し,微調整する。
得られたMechGPT LLM基盤モデルは、知識検索、様々な言語タスク、仮説生成、異なる領域にわたる知識の接続能力を調べるために、一連の計算実験で使用される。
論文 参考訳(メタデータ) (2023-10-16T14:29:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。