論文の概要: Modeling Temporal-Modal Entity Graph for Procedural Multimodal Machine
Comprehension
- arxiv url: http://arxiv.org/abs/2204.02566v1
- Date: Wed, 6 Apr 2022 03:41:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 15:00:55.222205
- Title: Modeling Temporal-Modal Entity Graph for Procedural Multimodal Machine
Comprehension
- Title(参考訳): 手続き型マルチモーダルマシン理解のための時間モードエンティティグラフのモデル化
- Authors: Huibin Zhang and Zhengkun Zhang and Yao Zhang and Jun Wang and Yufan
Li and Ning jiang and Xin wei and Zhenglu Yang
- Abstract要約: 手続き型マルチモーダル文書(PMD)は、テキスト命令とそれに対応する画像を段階的に整理する。
本研究では,M3C(Procedural MultiModal Machine)を細粒度レベルで(文書や文レベルでの既存調査と比較)アプローチする。
- 参考スコア(独自算出の注目度): 23.281727955934304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Procedural Multimodal Documents (PMDs) organize textual instructions and
corresponding images step by step. Comprehending PMDs and inducing their
representations for the downstream reasoning tasks is designated as Procedural
MultiModal Machine Comprehension (M3C). In this study, we approach Procedural
M3C at a fine-grained level (compared with existing explorations at a document
or sentence level), that is, entity. With delicate consideration, we model
entity both in its temporal and cross-modal relation and propose a novel
Temporal-Modal Entity Graph (TMEG). Specifically, graph structure is formulated
to capture textual and visual entities and trace their temporal-modal
evolution. In addition, a graph aggregation module is introduced to conduct
graph encoding and reasoning. Comprehensive experiments across three Procedural
M3C tasks are conducted on a traditional dataset RecipeQA and our new dataset
CraftQA, which can better evaluate the generalization of TMEG.
- Abstract(参考訳): 手続き型マルチモーダル文書(PMD)は、テキスト命令と対応する画像を段階的に整理する。
PMDの補完と下流推論タスクの表現の誘導は、手続き型マルチモーダルマシン理解(M3C)として指定されている。
本研究では,手続き的m3cを(文書や文レベルでの既存の探索と比較して)細粒度レベルで,すなわちエンティティにアプローチする。
我々は,その時間的・横断的関係の両方においてエンティティをモデル化し,新しい時間的モーダルエンティティグラフ(tmeg)を提案する。
具体的には、グラフ構造を定式化し、テキストおよび視覚的実体をキャプチャし、その時間・モーダル進化を追跡する。
また、グラフ符号化および推論を行うためにグラフ集約モジュールを導入する。
従来のデータセットRecipeQAと新しいデータセットCraftQAを用いて3つのM3Cタスクの総合的な実験を行い、TMEGの一般化をよりよく評価する。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。
本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文 参考訳(メタデータ) (2024-08-06T12:45:56Z) - Tokenization, Fusion, and Augmentation: Towards Fine-grained Multi-modal Entity Representation [51.80447197290866]
マルチモーダル知識グラフ補完(MMKGC)は、与えられた知識グラフから観測されていない知識を発見することを目的としている。
既存のMMKGCメソッドは通常、事前訓練されたモデルでマルチモーダルな特徴を抽出する。
エンティティの微細なマルチモーダル表現をトークン化し、融合し、拡張する新しいフレームワークであるMyGOを紹介します。
論文 参考訳(メタデータ) (2024-04-15T05:40:41Z) - MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning [48.63002688222462]
グラフの抽象的な構成要素が異なるため、チャートイメージ理解の領域にギャップが残っている。
多様なタスクとチャートタイプをサポートする600kインスタンスからなる大規模マルチモーダルチャートインストラクションデータセットを提案する。
我々は既存のグラフQAベンチマークで最先端性能を実現するLMMであるMultiModal Chart Assistant(textbfMMC-A)を開発した。
論文 参考訳(メタデータ) (2023-11-15T23:36:42Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - Graph-Text Multi-Modal Pre-training for Medical Representation Learning [7.403725826586844]
本稿では,構造化EHRデータとテキストEHRデータのマルチモーダル表現学習のための事前学習モデルであるMedGTXを提案する。
我々は,オープンソースのEHRデータであるMIMIC-III上での4つのプロキシタスクを通じて,モデルを事前訓練する。
その結果, EHR から得られた構造化情報と非構造化情報の両方の結合表現のための事前学習の有効性が一貫して示された。
論文 参考訳(メタデータ) (2022-03-18T14:45:42Z) - Knowledge Perceived Multi-modal Pretraining in E-commerce [12.012793707741562]
画像とテキストのモダリティに対する現在のマルチモーダル事前学習法は、モダリティの欠如やモダリティノイズに直面して頑健さを欠いている。
我々は,マルチモーダル事前学習における知識モダリティを導入し,ノイズを補正し,画像とテキストのモダリティの欠如を補うK3Mを提案する。
論文 参考訳(メタデータ) (2021-08-20T08:01:28Z) - Jointly Cross- and Self-Modal Graph Attention Network for Query-Based
Moment Localization [77.21951145754065]
本稿では,共同グラフを渡る反復的メッセージのプロセスとして,このタスクをリキャストするクロスモーダルグラフ注意ネットワーク(CSMGAN)を提案する。
CSMGANは2つのモード間の高次相互作用を効果的に捉えることができ、より正確な局所化を可能にします。
論文 参考訳(メタデータ) (2020-08-04T08:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。