論文の概要: MLM: A Benchmark Dataset for Multitask Learning with Multiple Languages
and Modalities
- arxiv url: http://arxiv.org/abs/2008.06376v3
- Date: Fri, 4 Sep 2020 16:10:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 16:53:55.566222
- Title: MLM: A Benchmark Dataset for Multitask Learning with Multiple Languages
and Modalities
- Title(参考訳): MLM: 複数の言語とモダリティを用いたマルチタスク学習のためのベンチマークデータセット
- Authors: Jason Armitage, Endri Kacupaj, Golsa Tahmasebzadeh, Swati, Maria
Maleshkova, Ralph Ewerth, Jens Lehmann
- Abstract要約: データセットは、Webやデジタルアーカイブで遭遇したデータ上で複数のタスクを実行するアプリケーションを構築する研究者や開発者のために設計されている。
第2版では、EU加盟国の重み付けされたサンプルとともに、データの地理的表現サブセットを提供する。
- 参考スコア(独自算出の注目度): 14.605385352491904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce the MLM (Multiple Languages and Modalities)
dataset - a new resource to train and evaluate multitask systems on samples in
multiple modalities and three languages. The generation process and inclusion
of semantic data provide a resource that further tests the ability for
multitask systems to learn relationships between entities. The dataset is
designed for researchers and developers who build applications that perform
multiple tasks on data encountered on the web and in digital archives. A second
version of MLM provides a geo-representative subset of the data with weighted
samples for countries of the European Union. We demonstrate the value of the
resource in developing novel applications in the digital humanities with a
motivating use case and specify a benchmark set of tasks to retrieve modalities
and locate entities in the dataset. Evaluation of baseline multitask and single
task systems on the full and geo-representative versions of MLM demonstrate the
challenges of generalising on diverse data. In addition to the digital
humanities, we expect the resource to contribute to research in multimodal
representation learning, location estimation, and scene understanding.
- Abstract(参考訳): 本稿では,mlm(multiple languages and modalities)データセットを紹介する。マルチタスクシステムを複数のモダリティと3つの言語でトレーニングし,評価するための新しいリソースである。
セマンティックデータの生成プロセスと包含は、マルチタスクシステムがエンティティ間の関係を学習する能力をさらにテストするリソースを提供する。
このデータセットは、Webやデジタルアーカイブで遭遇したデータ上で複数のタスクを実行するアプリケーションを構築する研究者や開発者向けに設計されている。
MLMの第2版は、EU加盟国の重み付けされたサンプルと共に、データの地理的表現サブセットを提供する。
デジタルヒューマニティにおける新しいアプリケーションの開発における資源の価値を動機づけるユースケースで実証し、モダリティの検索とデータセット内のエンティティの特定のためのタスクのベンチマークセットを指定する。
mlmのフルおよびジオ表現バージョンにおけるベースラインマルチタスクおよびシングルタスクシステムの評価は、多様なデータの一般化の課題を示している。
デジタル人文科学に加えて,マルチモーダル表現学習,位置推定,シーン理解の研究に資源が寄与することを期待している。
関連論文リスト
- Explainable Multi-Modal Data Exploration in Natural Language via LLM Agent [6.147666891384964]
XMODEは自然言語で説明可能なマルチモーダルデータ探索を可能にするシステムである。
XMODEは、マルチモーダル情報システムの探索を可能にする現実世界のユースケースにインスパイアされている。
論文 参考訳(メタデータ) (2024-12-24T13:42:44Z) - M$^{3}$D: A Multimodal, Multilingual and Multitask Dataset for Grounded Document-level Information Extraction [36.506500653677364]
我々はM$3$Dというマルチモーダル多言語マルチタスクデータセットを構築した。
ペア化された文書レベルのテキストとビデオを含み、マルチモーダル情報を豊かにする。
広く使われている2つの言語、すなわち英語と中国語をサポートしている。
論文 参考訳(メタデータ) (2024-12-05T10:00:58Z) - Personalized Multimodal Large Language Models: A Survey [127.9521218125761]
マルチモーダル大言語モデル(MLLM)は、最先端の性能と複数のデータモダリティを統合する能力により、ますます重要になっている。
本稿では,パーソナライズされたマルチモーダルな大規模言語モデルに関する包括的調査を行い,そのアーキテクチャ,トレーニング方法,アプリケーションに焦点をあてる。
論文 参考訳(メタデータ) (2024-12-03T03:59:03Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model [11.885204227946549]
統一表現を用いて様々なタスクを表現するために設計された包括的モデルを提案する。
本モデルは,ユーザ指示の暗黙的な意図を理解する上で,強力な能力を示す。
私たちのアプローチは、例外的なスケーラビリティと汎用性を示します。
論文 参考訳(メタデータ) (2024-08-05T14:27:39Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - 3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset [90.95948101052073]
英語と中国語で26,000のパラレル文対からなる曖昧性を考慮したMMTデータセットである3AMを導入する。
我々のデータセットは、他のMTデータセットよりもあいまいで、キャプションと画像の両方が多種多様であるように設計されています。
実験の結果,我々のデータセットでトレーニングしたMTモデルは,他のMTデータセットでトレーニングしたMTモデルよりも視覚情報を活用する能力が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-29T04:01:30Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Multimodal Entity Tagging with Multimodal Knowledge Base [45.84732232595781]
マルチモーダル知識ベース(MKB)を用いたMET(Multimodal entity tagging)というタスクを提案する。
METでは、テキストイメージペアが与えられた場合、MKB内の情報を使用して、テキストイメージペア内の関連エンティティを自動的に識別する。
我々は広範な実験を行い、実験結果について分析する。
論文 参考訳(メタデータ) (2021-12-21T15:04:57Z) - MELINDA: A Multimodal Dataset for Biomedical Experiment Method
Classification [14.820951153262685]
マルチモーダルbiomEdicaL experImeNtmethoD clAssificationのための新しいデータセット、MELINDAを紹介します。
データセットは、完全に自動化された遠隔監視方法で収集され、ラベルは既存のキュレーションデータベースから取得されます。
キャプションテキストまたは画像のみを入力として取得するユニモダルモデルを含む、さまざまな最先端のNLPおよびコンピュータビジョンモデルをベンチマークします。
論文 参考訳(メタデータ) (2020-12-16T19:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。