論文の概要: MEEL: Multi-Modal Event Evolution Learning
- arxiv url: http://arxiv.org/abs/2404.10429v1
- Date: Tue, 16 Apr 2024 09:46:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 17:23:30.970229
- Title: MEEL: Multi-Modal Event Evolution Learning
- Title(参考訳): MEEL: マルチモーダルイベント進化学習
- Authors: Zhengwei Tao, Zhi Jin, Junqiang Huang, Xiancai Chen, Xiaoying Bai, Haiyan Zhao, Yifan Zhang, Chongyang Tao,
- Abstract要約: イベント進化メカニズムを把握できるように,マルチモーダルイベント進化学習(MEEL)を導入する。
進化するグラフを命令調整データに定式化する命令カプセル化プロセスを提案する。
このような場合、モデルが不適切な進化方向を識別するように訓練される指導的識別戦略を提案する。
- 参考スコア(独自算出の注目度): 42.18159735510726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal Event Reasoning (MMER) endeavors to endow machines with the ability to comprehend intricate event relations across diverse data modalities. MMER is fundamental and underlies a wide broad of applications. Despite extensive instruction fine-tuning, current multi-modal large language models still fall short in such ability. The disparity stems from that existing models are insufficient to capture underlying principles governing event evolution in various scenarios. In this paper, we introduce Multi-Modal Event Evolution Learning (MEEL) to enable the model to grasp the event evolution mechanism, yielding advanced MMER ability. Specifically, we commence with the design of event diversification to gather seed events from a rich spectrum of scenarios. Subsequently, we employ ChatGPT to generate evolving graphs for these seed events. We propose an instruction encapsulation process that formulates the evolving graphs into instruction-tuning data, aligning the comprehension of event reasoning to humans. Finally, we observe that models trained in this way are still struggling to fully comprehend event evolution. In such a case, we propose the guiding discrimination strategy, in which models are trained to discriminate the improper evolution direction. We collect and curate a benchmark M-EV2 for MMER. Extensive experiments on M-EV2 validate the effectiveness of our approach, showcasing competitive performance in open-source multi-modal LLMs.
- Abstract(参考訳): MMER(Multi-modal Event Reasoning)は、さまざまなデータモダリティにまたがる複雑なイベント関係を理解する能力を備えた、マシンへの取り組みである。
MMERは基本的なものであり、幅広い応用の基盤となっている。
広範な命令の微調整にもかかわらず、現在のマルチモーダルな大規模言語モデルはそのような能力に乏しいままである。
この相違は、既存のモデルがさまざまなシナリオにおけるイベント進化を規定する基本原則を捉えるのに不十分であることに由来する。
本稿では,Multi-Modal Event Evolution Learning (MEEL)を導入し,モデルがイベント進化メカニズムを把握できるようにし,高度なMMER能力を実現する。
具体的には、イベントの多様化の設計から始まり、豊富なシナリオからシードイベントを収集する。
次に、これらのシードイベントの進化グラフを生成するためにChatGPTを使用します。
本研究では、進化するグラフを命令調整データに定式化し、事象推論の理解を人間に整合させる命令カプセル化プロセスを提案する。
最後に、この方法でトレーニングされたモデルが、イベントの進化を完全に理解するのに依然として苦労しているのを観察します。
このような場合、モデルが不適切な進化方向を識別するように訓練される指導的識別戦略を提案する。
MMERのベンチマークM-EV2を収集し、キュレートする。
M-EV2の大規模実験により, オープンソースのマルチモーダルLCMにおける競争性能を実証し, 提案手法の有効性を検証した。
関連論文リスト
- LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - MIO: A Foundation Model on Multimodal Tokens [74.85153216521945]
マルチモーダルトークン上に構築された新しい基礎モデルMIOを紹介する。
MIOは、エンドツーエンドの自己回帰的な方法で、音声、テキスト、画像、ビデオを理解し、生成することができる。
論文 参考訳(メタデータ) (2024-09-26T09:57:16Z) - EVIT: Event-Oriented Instruction Tuning for Event Reasoning [18.012724531672813]
イベント推論は、特定の関係に従ってイベントを推論し、将来のイベントを予測することを目的としている。
大規模言語モデル(LLM)は、その豊富な知識と推論能力のために、イベント推論において大きな進歩を遂げている。
しかし、現在使われている命令調整モデルでは、これらのタスクを管理するのに例外的な習熟度が一貫して示されていない。
論文 参考訳(メタデータ) (2024-04-18T08:14:53Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - MMICT: Boosting Multi-Modal Fine-Tuning with In-Context Examples [63.78384552789171]
本稿では,新しいマルチモーダル微調整パラダイムであるMMICTを紹介する。
M-Hub(Multi-Modal Hub)は,異なる入力や目的に応じて様々なマルチモーダル特徴をキャプチャするモジュールである。
M-Hubに基づいてMMICTは、MM-LLMがコンテキスト内視覚誘導されたテキスト特徴から学習し、その後、テキスト誘導された視覚特徴に基づいて条件付き出力を生成する。
論文 参考訳(メタデータ) (2023-12-11T13:11:04Z) - Training Multimedia Event Extraction With Generated Images and Captions [6.291564630983316]
CAMEL(Cross-modality Augmented Multimedia Event Learning)を提案する。
まず、テキストと画像のラベル付きユニモーダルデータセットから始め、Stable Diffusionのようなオフザシェルフ画像生成器とBLIPのようなイメージキャプタを使って、欠落したモダリティを生成する。
ドメイン間で有効な堅牢な機能を学ぶために、反復的かつ段階的なトレーニング戦略を考案する。
論文 参考訳(メタデータ) (2023-06-15T09:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。