論文の概要: Benchmarking Diverse-Modal Entity Linking with Generative Models
- arxiv url: http://arxiv.org/abs/2305.17337v1
- Date: Sat, 27 May 2023 02:38:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 20:14:11.927447
- Title: Benchmarking Diverse-Modal Entity Linking with Generative Models
- Title(参考訳): 生成モデルと横モードエンティティリンクのベンチマーク
- Authors: Sijia Wang, Alexander Hanbo Li, Henry Zhu, Sheng Zhang, Chung-Wei
Hang, Pramuditha Perera, Jie Ma, William Wang, Zhiguo Wang, Vittorio
Castelli, Bing Xiang, Patrick Ng
- Abstract要約: 既存の EL データセットから様々なモード EL (DMEL) のベンチマークを構築した。
DMEL タスクにアプローチするため,マルチモーダルエンコーダ・デコーダのパラダイムに則って生成多モードモデル (GDMM) を提案する。
GDMMは、より強力なDMELベースラインを構築し、平均8.51F1スコアで最先端のタスク固有のELモデルを上回っている。
- 参考スコア(独自算出の注目度): 78.93737257356784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Entities can be expressed in diverse formats, such as texts, images, or
column names and cell values in tables. While existing entity linking (EL)
models work well on per modality configuration, such as text-only EL, visual
grounding, or schema linking, it is more challenging to design a unified model
for diverse modality configurations. To bring various modality configurations
together, we constructed a benchmark for diverse-modal EL (DMEL) from existing
EL datasets, covering all three modalities including text, image, and table. To
approach the DMEL task, we proposed a generative diverse-modal model (GDMM)
following a multimodal-encoder-decoder paradigm. Pre-training \Model with rich
corpora builds a solid foundation for DMEL without storing the entire KB for
inference. Fine-tuning GDMM builds a stronger DMEL baseline, outperforming
state-of-the-art task-specific EL models by 8.51 F1 score on average.
Additionally, extensive error analyses are conducted to highlight the
challenges of DMEL, facilitating future research on this task.
- Abstract(参考訳): エンティティは、テキスト、イメージ、カラム名、セル値などの様々なフォーマットで表わすことができる。
既存のエンティティリンク(EL)モデルは、テキストのみのEL、ビジュアルグラウンド、スキーマリンクなど、モダリティ構成ごとにうまく機能するが、様々なモダリティ構成のための統一モデルの設計はより困難である。
様々なモダリティ構成を実現するため,既存のELデータセットから,テキスト,画像,テーブルを含む3つのモダリティを網羅した多様モードEL(DMEL)のベンチマークを構築した。
DMEL タスクにアプローチするため,マルチモーダルエンコーダ・デコーダのパラダイムに則って生成多モードモデル (GDMM) を提案する。
リッチコーパスによる事前トレーニング \Modelは、推論のためにKB全体を格納せずにDMELの基盤を構築する。
微調整GDMMはDMELベースラインを強化し、平均8.51F1スコアで最先端のタスク固有ELモデルを上回っている。
さらに,DMELの課題を浮き彫りにするために,広範囲な誤差解析を行い,今後の課題について検討する。
関連論文リスト
- The Power of Noise: Toward a Unified Multi-modal Knowledge Graph
Representation Framework [49.03191594327588]
マルチモーダルな知識グラフ(MMKG)表現学習フレームワークは,構造化された知識を大規模に多モーダルな言語モデル(LLM)に統合するために重要である。
モードレベルのノイズマスキングを備えたトランスフォーマーアーキテクチャを用いた新しいSNAG手法を提案する。
提案手法は,その堅牢性と汎用性を実証し,合計10データセットにわたるSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-03-11T15:48:43Z) - Model Composition for Multimodal Large Language Models [73.70317850267149]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - HELLaMA: LLaMA-based Table to Text Generation by Highlighting the
Important Evidence [6.837127761123152]
LLaMA2モデル上でパラメータ効率の良い微調整を行う。
我々のアプローチは、テーブル固有の行データを強調することにより、推論情報を入力に注入することである。
FetaQAデータセットとQTSummデータセットの両方で、我々のアプローチは最先端の結果を得た。
論文 参考訳(メタデータ) (2023-11-15T12:02:52Z) - Towards Robust Multi-Modal Reasoning via Model Selection [8.37038849337004]
LLMはエージェントの"脳"として機能し、協調的な多段階タスク解決のための複数のツールを編成する。
我々はテスト時に無視できるランタイムオーバーヘッドを持つプラグインとして、$textitM3$フレームワークを提案する。
実験の結果,我々のフレームワークは,ユーザ入力とサブタスク依存の両方を考慮した動的モデル選択を可能にすることがわかった。
論文 参考訳(メタデータ) (2023-10-12T16:06:18Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - MESED: A Multi-modal Entity Set Expansion Dataset with Fine-grained
Semantic Classes and Hard Negative Entities [25.059177235004952]
本稿では,マルチモーダル・エンティティ・セット・エクスパンジョン(MESE)を提案する。
4つのマルチモーダル事前学習タスクで事前学習を行う強力なマルチモーダルモデルであるMultiExpanを提案する。
MESEDデータセットは、大規模かつ精巧な手動キャリブレーションを備えたESEのための最初のマルチモーダルデータセットである。
論文 参考訳(メタデータ) (2023-07-27T14:09:59Z) - MEAformer: Multi-modal Entity Alignment Transformer for Meta Modality
Hybrid [40.745848169903105]
マルチモーダル・エンティティ・アライメント(MMEA)は、異なる知識グラフにまたがる同一のエンティティを発見することを目的としている。
MMEAアルゴリズムはマルチモーダル実体表現のためのKGレベルのモダリティ融合戦略に依存している。
本稿ではメタモダリティハイブリッドのためのマルチモーダルエンティティアライメントトランスであるMEAformerを紹介する。
論文 参考訳(メタデータ) (2022-12-29T20:49:58Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。