Fugu-MT 論文翻訳(概要): DongbaMIE: A Multimodal Information Extraction Dataset for Evaluating Semantic Understanding of Dongba Pictograms

論文の概要: DongbaMIE: A Multimodal Information Extraction Dataset for Evaluating Semantic Understanding of Dongba Pictograms

arxiv url: http://arxiv.org/abs/2503.03644v4
Date: Thu, 22 May 2025 15:57:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-23 14:49:21.832942
Title: DongbaMIE: A Multimodal Information Extraction Dataset for Evaluating Semantic Understanding of Dongba Pictograms
Title（参考訳）: DongbaMIE:Dongba Pictogramのセマンティック理解評価のためのマルチモーダル情報抽出データセット
Authors: Xiaojun Bi, Shuo Li, Junyao Xing, Ziyue Wang, Fuwen Luo, Weizheng Qiao, Lu Han, Ziwei Sun, Peng Li, Yang Liu,
Abstract要約: textbfDongbaMIEは、Dongba pictographsのマルチモーダル情報抽出に焦点を当てた最初のデータセットである。データセットは、ドンバヒエログリフ文字の画像と、それに対応する中国語の意味アノテーションで構成されている。 23,530の文レベルと2,539の段落レベルの高品質テキストイメージペアを含んでいる。
参考スコア（独自算出の注目度）: 15.828085671367612
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Dongba pictographic is the only pictographic script still in use in the world. Its pictorial ideographic features carry rich cultural and contextual information. However, due to the lack of relevant datasets, research on semantic understanding of Dongba hieroglyphs has progressed slowly. To this end, we constructed \textbf{DongbaMIE} - the first dataset focusing on multimodal information extraction of Dongba pictographs. The dataset consists of images of Dongba hieroglyphic characters and their corresponding semantic annotations in Chinese. It contains 23,530 sentence-level and 2,539 paragraph-level high-quality text-image pairs. The annotations cover four semantic dimensions: object, action, relation and attribute. Systematic evaluation of mainstream multimodal large language models shows that the models are difficult to perform information extraction of Dongba hieroglyphs efficiently under zero-shot and few-shot learning. Although supervised fine-tuning can improve the performance, accurate extraction of complex semantics is still a great challenge at present.
Abstract（参考訳）: ドンバ・ピクトグラフィーは、今でも世界で唯一使われているピクトグラフィー・スクリプトである。絵のイデオロギーの特徴は、豊かな文化的・文脈的な情報を持っている。しかし、関連するデータセットが不足しているため、ドンバ・ヒエログリフの意味的理解の研究はゆっくりと進んでいる。そこで我々は,Dongba pictographsのマルチモーダル情報抽出に着目した最初のデータセットであるtextbf{DongbaMIE}を構築した。データセットは、ドンバヒエログリフ文字の画像と、それに対応する中国語の意味アノテーションで構成されている。 23,530の文レベルと2,539の段落レベルの高品質テキストイメージペアを含んでいる。アノテーションは、オブジェクト、アクション、リレーション、属性の4つのセマンティックディメンションをカバーします。主流多モーダル大言語モデルの体系的評価は、ゼロショットおよび少数ショット学習下で効率的にドンバヒエログリフの情報抽出を行うことが困難であることを示している。教師付き微調整は性能を向上させることができるが、複雑な意味論の正確な抽出は依然として大きな課題である。

関連論文リスト

NOTA: Multimodal Music Notation Understanding for Visual Large Language Model [38.26693446133213]
大規模な総合マルチモーダル音楽表記データセットであるNOTAを提案する。世界の3つの地域からの1,019,237のレコードで構成され、3つのタスクを含んでいる。このデータセットに基づいて,音楽表記の視覚的大言語モデルであるNotaGPTを訓練した。
論文参考訳（メタデータ） (2025-02-17T16:39:19Z)
ScImage: How Good Are Multimodal Large Language Models at Scientific Text-to-Image Generation? [26.133995243580028]
マルチモーダル大言語モデル(LLM)は、テキスト命令から高品質な画像を生成する際、印象的な能力を示した。この研究は、テキスト記述から科学画像を生成する際のLLMのマルチモーダル能力を評価するために設計されたベンチマークであるScImageを紹介する。
論文参考訳（メタデータ） (2024-12-03T10:52:06Z)
SynChart: Synthesizing Charts from Language Models [50.73888371511983]
本研究は,LLMをデータ生成に単独で活用し,チャート理解に焦点をあてた競合するマルチモダリティモデルを開発する可能性を探る。約400万の多彩なチャートイメージと7500万以上の高密度アノテーションを含む大規模チャートデータセットであるSynChartを構築した。我々は,このデータセットを用いて4.2Bのグラフエキスパートモデルを訓練し,GPT-4Vを超え,ChartQAタスクでほぼGPT-4Oの性能を達成した。
論文参考訳（メタデータ） (2024-09-25T00:18:12Z)
FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs [58.95386070800286]
FullAnnoは、大規模で高品質できめ細かい画像アノテーションを生成するデータエンジンである。我々はFullAnnoシステムを用いてCOCOデータセットとVisual Genomeデータセットを再注釈した。実験により、再生したアノテーションは、複数のベンチマークでLLaVA-v1.5の能力を著しく向上できることが示された。
論文参考訳（メタデータ） (2024-09-20T14:33:17Z)
Evaluating the Performance of Large Language Models for SDG Mapping (Technical Report) [6.789534723913505]
大規模言語モデル(LLM)は、サードパーティにデータを提供する必要をなくすことで、データのプライバシ保護を可能にする。持続可能な開発目標マッピングタスクにおいて,様々な言語モデルの性能を比較した。この研究の結果によると、LLaMA 2とGemmaは依然として改善の余地がある。
論文参考訳（メタデータ） (2024-08-05T03:05:02Z)
StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images [5.529078451095096]
視覚シーンの意味を理解することはコンピュータビジョンの基本的な課題である。テキストと画像のフレームワークの最近の進歩は、自然のシーン統計を暗黙的に捉えるモデルにつながっている。提案するStableSemanticsは、224万件の人為的なプロンプト、処理された自然言語キャプション、200万以上の合成画像、そして個々の名詞のチャンクに対応する1000万のアテンションマップからなるデータセットである。
論文参考訳（メタデータ） (2024-06-19T17:59:40Z)
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文参考訳（メタデータ） (2024-06-14T17:59:40Z)
COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training [119.03392147066093]
近年の自己回帰視覚言語モデルは, テキスト生成タスクでは優れているが, アライメントタスクでは課題に直面している。テキスト生成モデルに対照的な損失を導入し,言語モデルを専用テキスト処理と適応型マルチモーダルデータ処理コンポーネントに分割する。このギャップを埋めるために、この研究は、包括的なキャプションを備えた最初のインターリーブ付きビデオテキストデータセットであるVideoDatasetNameを導入した。
論文参考訳（メタデータ） (2024-01-01T18:58:42Z)
An In-depth Look at Gemini's Language Abilities [49.897870833250494]
OpenAI GPTとGoogle Geminiモデルの能力を比較する。この分析は、さまざまな言語能力をテストする10のデータセットに対して実施します。 Gemini Pro は GPT 3.5 Turbo よりも近いがわずかに劣る精度を実現している。
論文参考訳（メタデータ） (2023-12-18T18:47:42Z)
GPT4SGG: Synthesizing Scene Graphs from Holistic and Region-specific Narratives [69.36723767339001]
我々は,より正確で包括的なシーングラフ信号を得るために,textitGPT4SGという新しいフレームワークを提案する。 textitGPT4SGGは、画像キャプチャーデータに基づいて訓練されたSGGモデルの性能を大幅に向上させる。
論文参考訳（メタデータ） (2023-12-07T14:11:00Z)
Paragraph-to-Image Generation with Information-Enriched Diffusion Model [62.81033771780328]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文参考訳（メタデータ） (2023-11-24T05:17:01Z)
Towards Better Multi-modal Keyphrase Generation via Visual Entity Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文参考訳（メタデータ） (2023-09-09T09:41:36Z)
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models [41.84885546518666]
GPT-4は、手書きテキストから直接Webサイトを生成するなど、驚くべきマルチモーダル能力を示している。凍結型ビジュアルエンコーダと凍結型大規模言語モデルとを協調するMiniGPT-4を提案する。また,MiniGPT-4の新たな特徴として,与えられた画像にインスパイアされた物語や詩を書くことが挙げられる。
論文参考訳（メタデータ） (2023-04-20T18:25:35Z)
Facial Expression Translation using Landmark Guided GANs [84.64650795005649]
表情から表現への変換のための強力なランドマークガイド付き生成支援ネットワーク(LandmarkGAN)を提案する。提案したLandmarkGANは,1つの画像のみを用いて,最先端のアプローチよりも優れた結果が得られる。
論文参考訳（メタデータ） (2022-09-05T20:52:42Z)
Highly Accurate Dichotomous Image Segmentation [139.79513044546]
Dichotomous Image segmentation (DIS)と呼ばれる新しいタスクは、自然画像から高度に正確な物体を抽出することを目的としている。私たちは、5,470の高解像度画像(例えば、2K、4K以上の画像)を含む最初の大規模データセットdis5Kを収集します。また、Disdisモデルトレーニングのための特徴レベルとマスクレベルの両方のガイダンスを用いて、単純な中間監視ベースライン(IS-Net)を導入する。
論文参考訳（メタデータ） (2022-03-06T20:09:19Z)
Generating More Pertinent Captions by Leveraging Semantics and Style on Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文参考訳（メタデータ） (2021-11-24T19:00:05Z)
Integrating Visuospatial, Linguistic and Commonsense Structure into Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文参考訳（メタデータ） (2021-10-21T00:16:02Z)
Exploring Semantic Relationships for Unpaired Image Captioning [40.401322131624866]
視覚領域と言語領域を高レベルな意味情報でブリッジすることで、不適切な画像キャプションを実現する。画像の理解を深めるため,セマンティック・リレーション・エクスプローラーを提案する。提案手法は,CIDErのスコアが8%に向上したペア設定下で,5つの強いベースラインを向上する。
論文参考訳（メタデータ） (2021-06-20T09:10:11Z)
LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short Text Matching [29.318730227080675]
外部知識基盤としてHowNetを導入し,単語のあいまいさに対処する言語知識拡張グラフ変換器(LET)を提案する。 2つの中国語データセットによる実験結果から、我々のモデルは様々な典型的なテキストマッチング手法より優れていることが示された。
論文参考訳（メタデータ） (2021-02-25T04:01:51Z)
Dual Attention on Pyramid Feature Maps for Image Captioning [11.372662279301522]
本稿では、ピラミッド画像の特徴マップに二重注意を適用し、視覚・意味的相関を探索し、生成文の品質を向上させることを提案する。 Flickr8K, Flickr30K, MS COCOの3つのよく知られたデータセットについて総合的な実験を行った。複合キャプションモデルは単一モデルモードで非常に有望な性能を達成する。
論文参考訳（メタデータ） (2020-11-02T23:42:34Z)
Graph-to-Sequence Neural Machine Translation [79.0617920270817]
グラフ変換器(Graph-Transformer)と呼ばれるグラフベースのSANベースのNMTモデルを提案する。サブグラフは順番に応じて異なるグループに分類され、各サブグラフは単語間の依存度をそれぞれ異なるレベルに反映する。提案手法は,WMT14ドイツ語データセットの1.1BLEU点,IWSLT14ドイツ語データセットの1.0BLEU点の改善により,トランスフォーマーを効果的に向上させることができる。
論文参考訳（メタデータ） (2020-09-16T06:28:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。