論文の概要: MERLIN: A Testbed for Multilingual Multimodal Entity Recognition and Linking
- arxiv url: http://arxiv.org/abs/2510.14307v1
- Date: Thu, 16 Oct 2025 05:06:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.73004
- Title: MERLIN: A Testbed for Multilingual Multimodal Entity Recognition and Linking
- Title(参考訳): MERLIN:多言語マルチモーダルエンティティ認識とリンクのためのテストベッド
- Authors: Sathyanarayanan Ramamoorthy, Vishwa Shah, Simran Khanuja, Zaid Sheikh, Shan Jie, Ann Chia, Shearman Chua, Graham Neubig,
- Abstract要約: 本稿では,多言語マルチモーダルエンティティリンクのための新しいテストベッドシステムであるMERLINを紹介する。
作成されたデータセットには、ヒンディー語、日本語、インドネシア語、ベトナム語、タミル語という5つの言語で、対応する画像と組み合わせたBBCニュース記事タイトルが含まれている。
また、異なる言語モデルを探索する多言語および多モーダルなエンティティリンク手法を用いて、いくつかのベンチマークを含む。
- 参考スコア(独自算出の注目度): 40.44700814984852
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces MERLIN, a novel testbed system for the task of Multilingual Multimodal Entity Linking. The created dataset includes BBC news article titles, paired with corresponding images, in five languages: Hindi, Japanese, Indonesian, Vietnamese, and Tamil, featuring over 7,000 named entity mentions linked to 2,500 unique Wikidata entities. We also include several benchmarks using multilingual and multimodal entity linking methods exploring different language models like LLaMa-2 and Aya-23. Our findings indicate that incorporating visual data improves the accuracy of entity linking, especially for entities where the textual context is ambiguous or insufficient, and particularly for models that do not have strong multilingual abilities. For the work, the dataset, methods are available here at https://github.com/rsathya4802/merlin
- Abstract(参考訳): 本稿では,多言語マルチモーダルエンティティリンクのための新しいテストベッドシステムであるMERLINを紹介する。
作成されたデータセットにはBBCのニュース記事のタイトルが含まれており、ヒンディー語、日本語、インドネシア語、ベトナム語、タミル語という5つの言語で、2500以上のユニークなWikidataエンティティに関連する7000以上の名前付きエンティティが記述されている。
また,LLaMa-2 や Aya-23 といった異なる言語モデルを探索する多言語および多モーダルなエンティティリンク手法を用いて,いくつかのベンチマークを行った。
本研究は, 視覚データの導入により, エンティティリンクの精度が向上し, 特にテキストコンテキストが曖昧あるいは不十分なエンティティや, 強い多言語能力を持たないモデルに対しては, 特にその精度が向上することが示唆された。
作業のために、データセット、メソッドはhttps://github.com/rsathya4802/merlin.orgから入手できる。
関連論文リスト
- Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
既存の手法では、視覚エンコーダを教師付き微調整(SFT)を介してMLLM(Multimodal Large Language Models)と整列させるのが一般的である。
言語レベルでの視覚的トークンアライメントにテキストガイダンスを活用する新しいアプローチであるPARROTを提案する。
我々は6言語、15カテゴリ、12,000の質問からなる新しいベンチマークであるMassive Multilingual Multimodal Benchmark (MMMB)を紹介する。
論文 参考訳(メタデータ) (2024-06-04T17:56:28Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Multilingual End to End Entity Linking [6.478594417785639]
私たちは、最初の完全なエンドツーエンドの多言語エンティティリンクモデルであるBELAをリリースし、オープンソース化しました。
BelAは97言語のいずれかのテキストのエンティティを効率的に検出し、リンクする。
論文 参考訳(メタデータ) (2023-06-15T07:02:00Z) - MUTANT: A Multi-sentential Code-mixed Hinglish Dataset [16.14337612590717]
本稿では,多言語記事から多文コード混合テキスト(MCT)を識別する新しいタスクを提案する。
ユースケースとして、多言語の記事を活用し、第一級の多文コード混合Hinglishデータセットを構築します。
MUTANTデータセットは67kの記事と85kのHinglish MCTからなる。
論文 参考訳(メタデータ) (2023-02-23T04:04:18Z) - Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文 参考訳(メタデータ) (2022-10-24T11:41:20Z) - A Multilingual Bag-of-Entities Model for Zero-Shot Cross-Lingual Text
Classification [16.684856745734944]
ゼロショット言語間テキスト分類の性能を向上する多言語バッグ・オブ・エンティリティモデルを提案する。
同じ概念を表す複数の言語のエンティティは、ユニークな識別子で定義される。
したがって、リソース豊富な言語のエンティティ機能に基づいて訓練されたモデルは、他の言語に直接適用することができる。
論文 参考訳(メタデータ) (2021-10-15T01:10:50Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - MLSUM: The Multilingual Summarization Corpus [29.943949944682196]
MLSUMは、最初の大規模MultiLingual Summarizationデータセットである。
5つの言語で1.5M以上の記事/サマリーペアを含む。
論文 参考訳(メタデータ) (2020-04-30T15:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。