論文の概要: DongbaMIE: A Multimodal Information Extraction Dataset for Evaluating Semantic Understanding of Dongba Pictograms
- arxiv url: http://arxiv.org/abs/2503.03644v3
- Date: Thu, 20 Mar 2025 12:16:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 15:30:52.046078
- Title: DongbaMIE: A Multimodal Information Extraction Dataset for Evaluating Semantic Understanding of Dongba Pictograms
- Title(参考訳): DongbaMIE:Dongba Pictogramのセマンティック理解評価のためのマルチモーダル情報抽出データセット
- Authors: Xiaojun Bi, Shuo Li, Ziyue Wang, Fuwen Luo, Weizheng Qiao, Lu Han, Ziwei Sun, Peng Li, Yang Liu,
- Abstract要約: 我々は,ドンバピクトグラフのセマンティック理解と抽出のための最初のマルチモーダルデータセットである textbfDongbaMIE を提案する。
DongbaMIEには23,530の文レベルと2,539の段落レベルのイメージが含まれており、対象、行動、関係、属性の4つの意味的次元をカバーしている。
実験結果から,GPT-4oとGeminiのプロプライエタリモデルのF1スコアは,それぞれ3.16と3.11のみであることがわかった。
- 参考スコア(独自算出の注目度): 16.354736466439686
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Dongba pictographs are the only pictographs still in use in the world. They have pictorial ideographic features, and their symbols carry rich cultural and contextual information. Due to the lack of relevant datasets, existing research has difficulty in advancing the study of semantic understanding of Dongba pictographs. To this end, we propose \textbf{DongbaMIE}, the first multimodal dataset for semantic understanding and extraction of Dongba pictographs, consisting of Dongba pictograph images and corresponding Chinese semantic annotations. DongbaMIE contains 23,530 sentence-level and 2,539 paragraph-level images, covering four semantic dimensions: objects, actions, relations, and attributes. We systematically evaluate multimodal large language models (MLLMs), such as GPT-4o, Gemini-2.0, and Qwen2-VL. Experimental results show that best F1 scores of proprietary models, GPT-4o and Gemini, for object extraction task are only 3.16 and 3.11 respectively. For the open-source model Qwen2-VL, it achieves only 11.49 after supervised fine-tuning. These suggest that current MLLMs still face significant challenges in accurately recognizing diverse semantic information in Dongba pictographs.
- Abstract(参考訳): ドンバ・ピクトグラフは、今でも世界で唯一使われているピクトグラフである。
絵のイデオロギー的特徴を持ち、そのシンボルは豊かな文化的・文脈的な情報を持っている。
関連するデータセットが不足しているため、既存の研究はドンバ・ピクトグラフのセマンティック理解の研究を進めるのに困難である。
そこで本研究では,ドンバ・ピクトグラフ画像とそれに対応する中国語意味アノテーションからなる,ドンバ・ピクトグラフのセマンティック理解と抽出のための,最初のマルチモーダルデータセットである \textbf{DongbaMIE} を提案する。
DongbaMIEには23,530の文レベルと2,539の段落レベルのイメージが含まれており、対象、行動、関係、属性の4つの意味的次元をカバーしている。
GPT-4o, Gemini-2.0, Qwen2-VLなどの多モード大言語モデル(MLLM)を体系的に評価した。
実験結果から,GPT-4oとGeminiのプロプライエタリモデルのF1スコアは,それぞれ3.16と3.11のみであることがわかった。
オープンソースのQwen2-VLでは、教師付き微調整で11.49しか達成していない。
これらのことから、現在のMLLMはドンバ・ピクトグラフにおける多様な意味情報を正確に認識する上で重要な課題に直面していることが示唆される。
関連論文リスト
- NOTA: Multimodal Music Notation Understanding for Visual Large Language Model [38.26693446133213]
大規模な総合マルチモーダル音楽表記データセットであるNOTAを提案する。
世界の3つの地域からの1,019,237のレコードで構成され、3つのタスクを含んでいる。
このデータセットに基づいて,音楽表記の視覚的大言語モデルであるNotaGPTを訓練した。
論文 参考訳(メタデータ) (2025-02-17T16:39:19Z) - ScImage: How Good Are Multimodal Large Language Models at Scientific Text-to-Image Generation? [26.133995243580028]
マルチモーダル大言語モデル(LLM)は、テキスト命令から高品質な画像を生成する際、印象的な能力を示した。
この研究は、テキスト記述から科学画像を生成する際のLLMのマルチモーダル能力を評価するために設計されたベンチマークであるScImageを紹介する。
論文 参考訳(メタデータ) (2024-12-03T10:52:06Z) - SynChart: Synthesizing Charts from Language Models [50.73888371511983]
本研究は,LLMをデータ生成に単独で活用し,チャート理解に焦点をあてた競合するマルチモダリティモデルを開発する可能性を探る。
約400万の多彩なチャートイメージと7500万以上の高密度アノテーションを含む大規模チャートデータセットであるSynChartを構築した。
我々は,このデータセットを用いて4.2Bのグラフエキスパートモデルを訓練し,GPT-4Vを超え,ChartQAタスクでほぼGPT-4Oの性能を達成した。
論文 参考訳(メタデータ) (2024-09-25T00:18:12Z) - FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs [58.95386070800286]
FullAnnoは、大規模で高品質できめ細かい画像アノテーションを生成するデータエンジンである。
我々はFullAnnoシステムを用いてCOCOデータセットとVisual Genomeデータセットを再注釈した。
実験により、再生したアノテーションは、複数のベンチマークでLLaVA-v1.5の能力を著しく向上できることが示された。
論文 参考訳(メタデータ) (2024-09-20T14:33:17Z) - Evaluating the Performance of Large Language Models for SDG Mapping (Technical Report) [6.789534723913505]
大規模言語モデル(LLM)は、サードパーティにデータを提供する必要をなくすことで、データのプライバシ保護を可能にする。
持続可能な開発目標マッピングタスクにおいて,様々な言語モデルの性能を比較した。
この研究の結果によると、LLaMA 2とGemmaは依然として改善の余地がある。
論文 参考訳(メタデータ) (2024-08-05T03:05:02Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - An In-depth Look at Gemini's Language Abilities [49.897870833250494]
OpenAI GPTとGoogle Geminiモデルの能力を比較する。
この分析は、さまざまな言語能力をテストする10のデータセットに対して実施します。
Gemini Pro は GPT 3.5 Turbo よりも近いがわずかに劣る精度を実現している。
論文 参考訳(メタデータ) (2023-12-18T18:47:42Z) - GPT4SGG: Synthesizing Scene Graphs from Holistic and Region-specific Narratives [69.36723767339001]
我々は,より正確で包括的なシーングラフ信号を得るために,textitGPT4SGという新しいフレームワークを提案する。
textitGPT4SGGは、画像キャプチャーデータに基づいて訓練されたSGGモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-12-07T14:11:00Z) - MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large
Language Models [41.84885546518666]
GPT-4は、手書きテキストから直接Webサイトを生成するなど、驚くべきマルチモーダル能力を示している。
凍結型ビジュアルエンコーダと凍結型大規模言語モデルとを協調するMiniGPT-4を提案する。
また,MiniGPT-4の新たな特徴として,与えられた画像にインスパイアされた物語や詩を書くことが挙げられる。
論文 参考訳(メタデータ) (2023-04-20T18:25:35Z) - Facial Expression Translation using Landmark Guided GANs [84.64650795005649]
表情から表現への変換のための強力なランドマークガイド付き生成支援ネットワーク(LandmarkGAN)を提案する。
提案したLandmarkGANは,1つの画像のみを用いて,最先端のアプローチよりも優れた結果が得られる。
論文 参考訳(メタデータ) (2022-09-05T20:52:42Z) - Highly Accurate Dichotomous Image Segmentation [139.79513044546]
Dichotomous Image segmentation (DIS)と呼ばれる新しいタスクは、自然画像から高度に正確な物体を抽出することを目的としている。
私たちは、5,470の高解像度画像(例えば、2K、4K以上の画像)を含む最初の大規模データセットdis5Kを収集します。
また、Disdisモデルトレーニングのための特徴レベルとマスクレベルの両方のガイダンスを用いて、単純な中間監視ベースライン(IS-Net)を導入する。
論文 参考訳(メタデータ) (2022-03-06T20:09:19Z) - Graph-to-Sequence Neural Machine Translation [79.0617920270817]
グラフ変換器(Graph-Transformer)と呼ばれるグラフベースのSANベースのNMTモデルを提案する。
サブグラフは順番に応じて異なるグループに分類され、各サブグラフは単語間の依存度をそれぞれ異なるレベルに反映する。
提案手法は,WMT14ドイツ語データセットの1.1BLEU点,IWSLT14ドイツ語データセットの1.0BLEU点の改善により,トランスフォーマーを効果的に向上させることができる。
論文 参考訳(メタデータ) (2020-09-16T06:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。