論文の概要: MM-Forecast: A Multimodal Approach to Temporal Event Forecasting with Large Language Models
- arxiv url: http://arxiv.org/abs/2408.04388v1
- Date: Thu, 8 Aug 2024 11:44:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 15:48:23.182236
- Title: MM-Forecast: A Multimodal Approach to Temporal Event Forecasting with Large Language Models
- Title(参考訳): MM-Forecast:大規模言語モデルを用いた時系列イベント予測のためのマルチモーダルアプローチ
- Authors: Haoxuan Li, Zhengmao Yang, Yunshan Ma, Yi Bin, Yang Yang, Tat-Seng Chua,
- Abstract要約: 大規模言語モデルを用いた多モーダル時間事象予測の新興かつ興味深い課題について検討する。
本稿では,画像が時間的事象予測のシナリオで果たす重要な2つの機能,すなわちハイライトと補完機能について述べる。
我々は,これらの関数記述を大規模言語モデルに組み込んだ,MM-Forecastという新しいフレームワークを開発した。
- 参考スコア(独自算出の注目度): 55.5765505287505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study an emerging and intriguing problem of multimodal temporal event forecasting with large language models. Compared to using text or graph modalities, the investigation of utilizing images for temporal event forecasting has not been fully explored, especially in the era of large language models (LLMs). To bridge this gap, we are particularly interested in two key questions of: 1) why images will help in temporal event forecasting, and 2) how to integrate images into the LLM-based forecasting framework. To answer these research questions, we propose to identify two essential functions that images play in the scenario of temporal event forecasting, i.e., highlighting and complementary. Then, we develop a novel framework, named MM-Forecast. It employs an Image Function Identification module to recognize these functions as verbal descriptions using multimodal large language models (MLLMs), and subsequently incorporates these function descriptions into LLM-based forecasting models. To evaluate our approach, we construct a new multimodal dataset, MidEast-TE-mm, by extending an existing event dataset MidEast-TE-mini with images. Empirical studies demonstrate that our MM-Forecast can correctly identify the image functions, and further more, incorporating these verbal function descriptions significantly improves the forecasting performance. The dataset, code, and prompts are available at https://github.com/LuminosityX/MM-Forecast.
- Abstract(参考訳): 大規模言語モデルを用いた多モーダル時間事象予測の新興かつ興味深い課題について検討する。
テキストやグラフのモダリティと比較して、特に大規模言語モデル(LLM)の時代には、時間的事象予測のための画像の利用に関する調査が完全には行われていない。
このギャップを埋めるために、私たちは特に2つの重要な質問に興味を持っています。
1)画像が時間的イベント予測になぜ役立つのか、そして
2) LLM ベースの予測フレームワークに画像を統合する方法。
これらの研究課題に答えるために、画像が時間的事象予測のシナリオ、すなわちハイライトと補完のシナリオで機能する2つの重要な機能を特定することを提案する。
そこで我々はMM-Forecastという新しいフレームワークを開発した。
MLLM(Multimodal large language model)を用いてこれらの関数を言語記述として認識するためにイメージ関数識別モジュールを使用し、その後、これらの関数記述をLSMベースの予測モデルに組み込む。
提案手法を評価するために,既存のイベントデータセットであるMidEast-TE-miniを画像で拡張することにより,新しいマルチモーダルデータセットであるMidEast-TE-mmを構築した。
実験的な研究により,我々のMM-Forecastは画像関数を正しく識別でき,さらにこれらの言語機能記述を取り入れることで予測性能が大幅に向上することが示された。
データセット、コード、プロンプトはhttps://github.com/LuminosityX/MM-Forecastで確認できる。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - TimeCAP: Learning to Contextualize, Augment, and Predict Time Series Events with Large Language Model Agents [52.13094810313054]
TimeCAPは、時系列データのコンテキスト化ツールとしてLarge Language Models(LLM)を創造的に利用する時系列処理フレームワークである。
TimeCAPには2つの独立したLCMエージェントが組み込まれており、1つは時系列のコンテキストをキャプチャするテキスト要約を生成し、もう1つはより情報のある予測を行うためにこのリッチな要約を使用する。
実世界のデータセットによる実験結果から,TimeCAPは時系列イベント予測の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-17T04:17:27Z) - Time-VLM: Exploring Multimodal Vision-Language Models for Augmented Time Series Forecasting [26.4608782425897]
Time-VLMは、時間的、視覚的、テキスト的なモダリティを橋渡しして予測を強化する新しいフレームワークである。
本フレームワークは,(1)記憶バンク相互作用を通じて時間的特徴を抽出する検索型学習者,(2)時系列を情報的画像としてエンコードするビジョン型学習者,(3)文脈的テキスト記述を生成するテキスト型学習者,の3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-02-06T05:59:45Z) - Can Multimodal LLMs do Visual Temporal Understanding and Reasoning? The answer is No! [22.75945626401567]
本稿では,TemporalVQAという評価ベンチマークを提案する。
第1部では、時間的に連続するビデオフレームを分析してイベントのシーケンスを決定するためにMLLMが必要である。
第2部では、複数選択の質問としてフレーム化された時間差のある画像ペアを提示し、MLLMに秒から数年のオプションで画像間のタイムラプスを見積もる。
GPT-4o や Gemini-1.5-Pro などのモデルを含む先進MLLM の評価は,重要な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-01-18T06:41:48Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - CoCoT: Contrastive Chain-of-Thought Prompting for Large Multimodal
Models with Multiple Image Inputs [48.269363759989915]
この研究は、第1、画像対画像マッチング、第2、複数画像対テキストマッチングという2つの側面に焦点を当てている。
我々は, GPT-4V, Gemini, OpenFlamingo, MMICLを含む, オープンソースおよびクローズドソースの大規模モデルについて評価を行った。
論文 参考訳(メタデータ) (2024-01-05T00:26:07Z) - Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。
時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。
Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文 参考訳(メタデータ) (2023-10-03T01:31:25Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。