論文の概要: DongbaMIE: A Multimodal Information Extraction Dataset for Evaluating Semantic Understanding of Dongba Pictograms
- arxiv url: http://arxiv.org/abs/2503.03644v2
- Date: Thu, 06 Mar 2025 11:36:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 12:14:26.467458
- Title: DongbaMIE: A Multimodal Information Extraction Dataset for Evaluating Semantic Understanding of Dongba Pictograms
- Title(参考訳): DongbaMIE:Dongba Pictogramのセマンティック理解評価のためのマルチモーダル情報抽出データセット
- Authors: Xiaojun Bi, Shuo Li, Ziyue Wang, Fuwen Luo, Weizheng Qiao, Lu Han, Ziwei Sun, Peng Li, Yang Liu,
- Abstract要約: DongbaMIEは、Dongba pictographsのセマンティック理解と抽出のための最初のマルチモーダルデータセットである。
23,530の文レベルと2,539の段落レベルのイメージを含み、対象、行動、関係、属性の4つの意味的次元をカバーする。
- 参考スコア(独自算出の注目度): 16.354736466439686
- License:
- Abstract: Dongba pictographs are the only pictographs still in use in the world. They have pictorial ideographic features, and their symbols carry rich cultural and contextual information. Due to the lack of relevant datasets, existing research has difficulty in advancing the study of semantic understanding of Dongba pictographs. To this end, we propose DongbaMIE, the first multimodal dataset for semantic understanding and extraction of Dongba pictographs. The dataset consists of Dongba pictograph images and their corresponding Chinese semantic annotations. It contains 23,530 sentence-level and 2,539 paragraph-level images, covering four semantic dimensions: objects, actions, relations, and attributes. We systematically evaluate the GPT-4o, Gemini-2.0, and Qwen2-VL models. Experimental results show that the F1 scores of GPT-4o and Gemini in the best object extraction are only 3.16 and 3.11 respectively. The F1 score of Qwen2-VL after supervised fine-tuning is only 11.49. These results suggest that current large multimodal models still face significant challenges in accurately recognizing the diverse semantic information in Dongba pictographs. The dataset can be obtained from this URL.
- Abstract(参考訳): ドンバ・ピクトグラフは、今でも世界で唯一使われているピクトグラフである。
絵のイデオロギー的特徴を持ち、そのシンボルは豊かな文化的・文脈的な情報を持っている。
関連するデータセットが不足しているため、既存の研究はドンバ・ピクトグラフのセマンティック理解の研究を進めるのに困難である。
そこで本研究では,Dongba pictographsのセマンティック理解と抽出のための最初のマルチモーダルデータセットであるDongbaMIEを提案する。
データセットは、ドンバピクトグラフ画像とその対応する中国の意味論から成っている。
23,530の文レベルと2,539の段落レベルのイメージを含み、対象、行動、関係、属性の4つの意味的次元をカバーする。
GPT-4o, Gemini-2.0, Qwen2-VL モデルを体系的に評価した。
実験の結果,GPT-4oとGeminiのF1スコアはそれぞれ3.16と3.11であることがわかった。
教師付き微調整後のQwen2-VLのF1スコアは11.49である。
これらの結果は、現在の大規模マルチモーダルモデルは、ドンバピクトグラフにおける多様な意味情報を正確に認識する上で、依然として重大な課題に直面していることを示唆している。
このURLからデータセットを取得することができる。
関連論文リスト
- Exploring AI-based System Design for Pixel-level Protected Health Information Detection in Medical Images [0.5825410941577593]
3つのビジョンと言語モデル、YOLOv11、EasyOCR、GPT-4oは、3つのキーコンポーネントに対応する異なる設定でベンチマークされる。
性能は、精度、リコール、F1スコア、精度などの分類基準で評価される。
論文 参考訳(メタデータ) (2025-01-16T14:12:33Z) - SynChart: Synthesizing Charts from Language Models [50.73888371511983]
本研究は,LLMをデータ生成に単独で活用し,チャート理解に焦点をあてた競合するマルチモダリティモデルを開発する可能性を探る。
約400万の多彩なチャートイメージと7500万以上の高密度アノテーションを含む大規模チャートデータセットであるSynChartを構築した。
我々は,このデータセットを用いて4.2Bのグラフエキスパートモデルを訓練し,GPT-4Vを超え,ChartQAタスクでほぼGPT-4Oの性能を達成した。
論文 参考訳(メタデータ) (2024-09-25T00:18:12Z) - FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs [58.95386070800286]
FullAnnoは、大規模で高品質できめ細かい画像アノテーションを生成するデータエンジンである。
我々はFullAnnoシステムを用いてCOCOデータセットとVisual Genomeデータセットを再注釈した。
実験により、再生したアノテーションは、複数のベンチマークでLLaVA-v1.5の能力を著しく向上できることが示された。
論文 参考訳(メタデータ) (2024-09-20T14:33:17Z) - Evaluating the Performance of Large Language Models for SDG Mapping (Technical Report) [6.789534723913505]
大規模言語モデル(LLM)は、サードパーティにデータを提供する必要をなくすことで、データのプライバシ保護を可能にする。
持続可能な開発目標マッピングタスクにおいて,様々な言語モデルの性能を比較した。
この研究の結果によると、LLaMA 2とGemmaは依然として改善の余地がある。
論文 参考訳(メタデータ) (2024-08-05T03:05:02Z) - An In-depth Look at Gemini's Language Abilities [49.897870833250494]
OpenAI GPTとGoogle Geminiモデルの能力を比較する。
この分析は、さまざまな言語能力をテストする10のデータセットに対して実施します。
Gemini Pro は GPT 3.5 Turbo よりも近いがわずかに劣る精度を実現している。
論文 参考訳(メタデータ) (2023-12-18T18:47:42Z) - Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - Highly Accurate Dichotomous Image Segmentation [139.79513044546]
Dichotomous Image segmentation (DIS)と呼ばれる新しいタスクは、自然画像から高度に正確な物体を抽出することを目的としている。
私たちは、5,470の高解像度画像(例えば、2K、4K以上の画像)を含む最初の大規模データセットdis5Kを収集します。
また、Disdisモデルトレーニングのための特徴レベルとマスクレベルの両方のガイダンスを用いて、単純な中間監視ベースライン(IS-Net)を導入する。
論文 参考訳(メタデータ) (2022-03-06T20:09:19Z) - Panoptic Segmentation Meets Remote Sensing [0.0]
パノプティックセグメンテーションは、インスタンスとセマンティック予測を組み合わせることで、"things"と"stuff"を同時に検出できる。
本研究の目的は,リモートセンシングにおける汎視的セグメンテーションの操作性の向上である。
論文 参考訳(メタデータ) (2021-11-23T19:48:55Z) - Graph-to-Sequence Neural Machine Translation [79.0617920270817]
グラフ変換器(Graph-Transformer)と呼ばれるグラフベースのSANベースのNMTモデルを提案する。
サブグラフは順番に応じて異なるグループに分類され、各サブグラフは単語間の依存度をそれぞれ異なるレベルに反映する。
提案手法は,WMT14ドイツ語データセットの1.1BLEU点,IWSLT14ドイツ語データセットの1.0BLEU点の改善により,トランスフォーマーを効果的に向上させることができる。
論文 参考訳(メタデータ) (2020-09-16T06:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。