論文の概要: DongbaMIE: A Multimodal Information Extraction Dataset for Evaluating Semantic Understanding of Dongba Pictograms
- arxiv url: http://arxiv.org/abs/2503.03644v3
- Date: Thu, 20 Mar 2025 12:16:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 19:00:36.298135
- Title: DongbaMIE: A Multimodal Information Extraction Dataset for Evaluating Semantic Understanding of Dongba Pictograms
- Title(参考訳): DongbaMIE:Dongba Pictogramのセマンティック理解評価のためのマルチモーダル情報抽出データセット
- Authors: Xiaojun Bi, Shuo Li, Ziyue Wang, Fuwen Luo, Weizheng Qiao, Lu Han, Ziwei Sun, Peng Li, Yang Liu,
- Abstract要約: 我々は,ドンバピクトグラフのセマンティック理解と抽出のための最初のマルチモーダルデータセットである textbfDongbaMIE を提案する。
DongbaMIEには23,530の文レベルと2,539の段落レベルのイメージが含まれており、対象、行動、関係、属性の4つの意味的次元をカバーしている。
実験結果から,GPT-4oとGeminiのプロプライエタリモデルのF1スコアは,それぞれ3.16と3.11のみであることがわかった。
- 参考スコア(独自算出の注目度): 16.354736466439686
- License:
- Abstract: Dongba pictographs are the only pictographs still in use in the world. They have pictorial ideographic features, and their symbols carry rich cultural and contextual information. Due to the lack of relevant datasets, existing research has difficulty in advancing the study of semantic understanding of Dongba pictographs. To this end, we propose \textbf{DongbaMIE}, the first multimodal dataset for semantic understanding and extraction of Dongba pictographs, consisting of Dongba pictograph images and corresponding Chinese semantic annotations. DongbaMIE contains 23,530 sentence-level and 2,539 paragraph-level images, covering four semantic dimensions: objects, actions, relations, and attributes. We systematically evaluate multimodal large language models (MLLMs), such as GPT-4o, Gemini-2.0, and Qwen2-VL. Experimental results show that best F1 scores of proprietary models, GPT-4o and Gemini, for object extraction task are only 3.16 and 3.11 respectively. For the open-source model Qwen2-VL, it achieves only 11.49 after supervised fine-tuning. These suggest that current MLLMs still face significant challenges in accurately recognizing diverse semantic information in Dongba pictographs.
- Abstract(参考訳): ドンバ・ピクトグラフは、今でも世界で唯一使われているピクトグラフである。
絵のイデオロギー的特徴を持ち、そのシンボルは豊かな文化的・文脈的な情報を持っている。
関連するデータセットが不足しているため、既存の研究はドンバ・ピクトグラフのセマンティック理解の研究を進めるのに困難である。
そこで本研究では,ドンバ・ピクトグラフ画像とそれに対応する中国語意味アノテーションからなる,ドンバ・ピクトグラフのセマンティック理解と抽出のための,最初のマルチモーダルデータセットである \textbf{DongbaMIE} を提案する。
DongbaMIEには23,530の文レベルと2,539の段落レベルのイメージが含まれており、対象、行動、関係、属性の4つの意味的次元をカバーしている。
GPT-4o, Gemini-2.0, Qwen2-VLなどの多モード大言語モデル(MLLM)を体系的に評価した。
実験結果から,GPT-4oとGeminiのプロプライエタリモデルのF1スコアは,それぞれ3.16と3.11のみであることがわかった。
オープンソースのQwen2-VLでは、教師付き微調整で11.49しか達成していない。
これらのことから、現在のMLLMはドンバ・ピクトグラフにおける多様な意味情報を正確に認識する上で重要な課題に直面していることが示唆される。
関連論文リスト
- Exploring AI-based System Design for Pixel-level Protected Health Information Detection in Medical Images [0.5825410941577593]
3つのビジョンと言語モデル、YOLOv11、EasyOCR、GPT-4oは、3つのキーコンポーネントに対応する異なる設定でベンチマークされる。
性能は、精度、リコール、F1スコア、精度などの分類基準で評価される。
論文 参考訳(メタデータ) (2025-01-16T14:12:33Z) - SynChart: Synthesizing Charts from Language Models [50.73888371511983]
本研究は,LLMをデータ生成に単独で活用し,チャート理解に焦点をあてた競合するマルチモダリティモデルを開発する可能性を探る。
約400万の多彩なチャートイメージと7500万以上の高密度アノテーションを含む大規模チャートデータセットであるSynChartを構築した。
我々は,このデータセットを用いて4.2Bのグラフエキスパートモデルを訓練し,GPT-4Vを超え,ChartQAタスクでほぼGPT-4Oの性能を達成した。
論文 参考訳(メタデータ) (2024-09-25T00:18:12Z) - FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs [58.95386070800286]
FullAnnoは、大規模で高品質できめ細かい画像アノテーションを生成するデータエンジンである。
我々はFullAnnoシステムを用いてCOCOデータセットとVisual Genomeデータセットを再注釈した。
実験により、再生したアノテーションは、複数のベンチマークでLLaVA-v1.5の能力を著しく向上できることが示された。
論文 参考訳(メタデータ) (2024-09-20T14:33:17Z) - Evaluating the Performance of Large Language Models for SDG Mapping (Technical Report) [6.789534723913505]
大規模言語モデル(LLM)は、サードパーティにデータを提供する必要をなくすことで、データのプライバシ保護を可能にする。
持続可能な開発目標マッピングタスクにおいて,様々な言語モデルの性能を比較した。
この研究の結果によると、LLaMA 2とGemmaは依然として改善の余地がある。
論文 参考訳(メタデータ) (2024-08-05T03:05:02Z) - An In-depth Look at Gemini's Language Abilities [49.897870833250494]
OpenAI GPTとGoogle Geminiモデルの能力を比較する。
この分析は、さまざまな言語能力をテストする10のデータセットに対して実施します。
Gemini Pro は GPT 3.5 Turbo よりも近いがわずかに劣る精度を実現している。
論文 参考訳(メタデータ) (2023-12-18T18:47:42Z) - Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - Highly Accurate Dichotomous Image Segmentation [139.79513044546]
Dichotomous Image segmentation (DIS)と呼ばれる新しいタスクは、自然画像から高度に正確な物体を抽出することを目的としている。
私たちは、5,470の高解像度画像(例えば、2K、4K以上の画像)を含む最初の大規模データセットdis5Kを収集します。
また、Disdisモデルトレーニングのための特徴レベルとマスクレベルの両方のガイダンスを用いて、単純な中間監視ベースライン(IS-Net)を導入する。
論文 参考訳(メタデータ) (2022-03-06T20:09:19Z) - Panoptic Segmentation Meets Remote Sensing [0.0]
パノプティックセグメンテーションは、インスタンスとセマンティック予測を組み合わせることで、"things"と"stuff"を同時に検出できる。
本研究の目的は,リモートセンシングにおける汎視的セグメンテーションの操作性の向上である。
論文 参考訳(メタデータ) (2021-11-23T19:48:55Z) - Graph-to-Sequence Neural Machine Translation [79.0617920270817]
グラフ変換器(Graph-Transformer)と呼ばれるグラフベースのSANベースのNMTモデルを提案する。
サブグラフは順番に応じて異なるグループに分類され、各サブグラフは単語間の依存度をそれぞれ異なるレベルに反映する。
提案手法は,WMT14ドイツ語データセットの1.1BLEU点,IWSLT14ドイツ語データセットの1.0BLEU点の改善により,トランスフォーマーを効果的に向上させることができる。
論文 参考訳(メタデータ) (2020-09-16T06:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。