論文の概要: Modeling Temporal-Modal Entity Graph for Procedural Multimodal Machine
Comprehension
- arxiv url: http://arxiv.org/abs/2204.02566v1
- Date: Wed, 6 Apr 2022 03:41:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 15:00:55.222205
- Title: Modeling Temporal-Modal Entity Graph for Procedural Multimodal Machine
Comprehension
- Title(参考訳): 手続き型マルチモーダルマシン理解のための時間モードエンティティグラフのモデル化
- Authors: Huibin Zhang and Zhengkun Zhang and Yao Zhang and Jun Wang and Yufan
Li and Ning jiang and Xin wei and Zhenglu Yang
- Abstract要約: 手続き型マルチモーダル文書(PMD)は、テキスト命令とそれに対応する画像を段階的に整理する。
本研究では,M3C(Procedural MultiModal Machine)を細粒度レベルで(文書や文レベルでの既存調査と比較)アプローチする。
- 参考スコア(独自算出の注目度): 23.281727955934304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Procedural Multimodal Documents (PMDs) organize textual instructions and
corresponding images step by step. Comprehending PMDs and inducing their
representations for the downstream reasoning tasks is designated as Procedural
MultiModal Machine Comprehension (M3C). In this study, we approach Procedural
M3C at a fine-grained level (compared with existing explorations at a document
or sentence level), that is, entity. With delicate consideration, we model
entity both in its temporal and cross-modal relation and propose a novel
Temporal-Modal Entity Graph (TMEG). Specifically, graph structure is formulated
to capture textual and visual entities and trace their temporal-modal
evolution. In addition, a graph aggregation module is introduced to conduct
graph encoding and reasoning. Comprehensive experiments across three Procedural
M3C tasks are conducted on a traditional dataset RecipeQA and our new dataset
CraftQA, which can better evaluate the generalization of TMEG.
- Abstract(参考訳): 手続き型マルチモーダル文書(PMD)は、テキスト命令と対応する画像を段階的に整理する。
PMDの補完と下流推論タスクの表現の誘導は、手続き型マルチモーダルマシン理解(M3C)として指定されている。
本研究では,手続き的m3cを(文書や文レベルでの既存の探索と比較して)細粒度レベルで,すなわちエンティティにアプローチする。
我々は,その時間的・横断的関係の両方においてエンティティをモデル化し,新しい時間的モーダルエンティティグラフ(tmeg)を提案する。
具体的には、グラフ構造を定式化し、テキストおよび視覚的実体をキャプチャし、その時間・モーダル進化を追跡する。
また、グラフ符号化および推論を行うためにグラフ集約モジュールを導入する。
従来のデータセットRecipeQAと新しいデータセットCraftQAを用いて3つのM3Cタスクの総合的な実験を行い、TMEGの一般化をよりよく評価する。
関連論文リスト
- MyGO: Discrete Modality Information as Fine-Grained Tokens for Multi-modal Knowledge Graph Completion [51.80447197290866]
MMKGの微細なモダリティ情報を処理・融合・拡張するためにMyGOを導入する。
MyGOは、マルチモーダルな生データをきめ細かい離散トークンとしてトークン化し、クロスモーダルなエンティティエンコーダでエンティティ表現を学習する。
標準MMKGCベンチマーク実験により,本手法が最新の20モデルを上回ることがわかった。
論文 参考訳(メタデータ) (2024-04-15T05:40:41Z) - mChartQA: A universal benchmark for multimodal Chart Question Answer based on Vision-Language Alignment and Reasoning [8.1113308714581]
本稿では,新しいマルチモーダルチャート質問応答モデルを提案する。
我々のモデルは、既存の手法の制約を克服し、視覚的および言語的処理を統合する。
このアプローチは、複数のパブリックデータセット上での優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-04-02T01:28:44Z) - MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning [48.63002688222462]
グラフの抽象的な構成要素が異なるため、チャートイメージ理解の領域にギャップが残っている。
多様なタスクとチャートタイプをサポートする600kインスタンスからなる大規模マルチモーダルチャートインストラクションデータセットを提案する。
我々は既存のグラフQAベンチマークで最先端性能を実現するLMMであるMultiModal Chart Assistant(textbfMMC-A)を開発した。
論文 参考訳(メタデータ) (2023-11-15T23:36:42Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - Correlational Image Modeling for Self-Supervised Visual Pre-Training [81.82907503764775]
相関画像モデリング(Relational Image Modeling)は、自己監督型視覚前訓練における、新しくて驚くほど効果的なアプローチである。
3つの重要な設計は、相関画像モデリングを非自明で有意義な自己監督タスクとして実現している。
論文 参考訳(メタデータ) (2023-03-22T15:48:23Z) - Graph-Text Multi-Modal Pre-training for Medical Representation Learning [7.403725826586844]
本稿では,構造化EHRデータとテキストEHRデータのマルチモーダル表現学習のための事前学習モデルであるMedGTXを提案する。
我々は,オープンソースのEHRデータであるMIMIC-III上での4つのプロキシタスクを通じて,モデルを事前訓練する。
その結果, EHR から得られた構造化情報と非構造化情報の両方の結合表現のための事前学習の有効性が一貫して示された。
論文 参考訳(メタデータ) (2022-03-18T14:45:42Z) - Knowledge Perceived Multi-modal Pretraining in E-commerce [12.012793707741562]
画像とテキストのモダリティに対する現在のマルチモーダル事前学習法は、モダリティの欠如やモダリティノイズに直面して頑健さを欠いている。
我々は,マルチモーダル事前学習における知識モダリティを導入し,ノイズを補正し,画像とテキストのモダリティの欠如を補うK3Mを提案する。
論文 参考訳(メタデータ) (2021-08-20T08:01:28Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Jointly Cross- and Self-Modal Graph Attention Network for Query-Based
Moment Localization [77.21951145754065]
本稿では,共同グラフを渡る反復的メッセージのプロセスとして,このタスクをリキャストするクロスモーダルグラフ注意ネットワーク(CSMGAN)を提案する。
CSMGANは2つのモード間の高次相互作用を効果的に捉えることができ、より正確な局所化を可能にします。
論文 参考訳(メタデータ) (2020-08-04T08:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。