Fugu-MT 論文翻訳(概要): MM-Forecast: A Multimodal Approach to Temporal Event Forecasting with Large Language Models

論文の概要: MM-Forecast: A Multimodal Approach to Temporal Event Forecasting with Large Language Models

arxiv url: http://arxiv.org/abs/2408.04388v1
Date: Thu, 8 Aug 2024 11:44:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-09 15:48:23.182236
Title: MM-Forecast: A Multimodal Approach to Temporal Event Forecasting with Large Language Models
Title（参考訳）: MM-Forecast:大規模言語モデルを用いた時系列イベント予測のためのマルチモーダルアプローチ
Authors: Haoxuan Li, Zhengmao Yang, Yunshan Ma, Yi Bin, Yang Yang, Tat-Seng Chua,
Abstract要約: 大規模言語モデルを用いた多モーダル時間事象予測の新興かつ興味深い課題について検討する。本稿では,画像が時間的事象予測のシナリオで果たす重要な2つの機能,すなわちハイライトと補完機能について述べる。我々は,これらの関数記述を大規模言語モデルに組み込んだ,MM-Forecastという新しいフレームワークを開発した。
参考スコア（独自算出の注目度）: 55.5765505287505
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study an emerging and intriguing problem of multimodal temporal event forecasting with large language models. Compared to using text or graph modalities, the investigation of utilizing images for temporal event forecasting has not been fully explored, especially in the era of large language models (LLMs). To bridge this gap, we are particularly interested in two key questions of: 1) why images will help in temporal event forecasting, and 2) how to integrate images into the LLM-based forecasting framework. To answer these research questions, we propose to identify two essential functions that images play in the scenario of temporal event forecasting, i.e., highlighting and complementary. Then, we develop a novel framework, named MM-Forecast. It employs an Image Function Identification module to recognize these functions as verbal descriptions using multimodal large language models (MLLMs), and subsequently incorporates these function descriptions into LLM-based forecasting models. To evaluate our approach, we construct a new multimodal dataset, MidEast-TE-mm, by extending an existing event dataset MidEast-TE-mini with images. Empirical studies demonstrate that our MM-Forecast can correctly identify the image functions, and further more, incorporating these verbal function descriptions significantly improves the forecasting performance. The dataset, code, and prompts are available at https://github.com/LuminosityX/MM-Forecast.
Abstract（参考訳）: 大規模言語モデルを用いた多モーダル時間事象予測の新興かつ興味深い課題について検討する。テキストやグラフのモダリティと比較して、特に大規模言語モデル(LLM)の時代には、時間的事象予測のための画像の利用に関する調査が完全には行われていない。このギャップを埋めるために、私たちは特に2つの重要な質問に興味を持っています。 1)画像が時間的イベント予測になぜ役立つのか、そして 2) LLM ベースの予測フレームワークに画像を統合する方法。これらの研究課題に答えるために、画像が時間的事象予測のシナリオ、すなわちハイライトと補完のシナリオで機能する2つの重要な機能を特定することを提案する。そこで我々はMM-Forecastという新しいフレームワークを開発した。 MLLM(Multimodal large language model)を用いてこれらの関数を言語記述として認識するためにイメージ関数識別モジュールを使用し、その後、これらの関数記述をLSMベースの予測モデルに組み込む。提案手法を評価するために,既存のイベントデータセットであるMidEast-TE-miniを画像で拡張することにより,新しいマルチモーダルデータセットであるMidEast-TE-mmを構築した。実験的な研究により,我々のMM-Forecastは画像関数を正しく識別でき,さらにこれらの言語機能記述を取り入れることで予測性能が大幅に向上することが示された。データセット、コード、プロンプトはhttps://github.com/LuminosityX/MM-Forecastで確認できる。

関連論文リスト

Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
TimeCAP: Learning to Contextualize, Augment, and Predict Time Series Events with Large Language Model Agents [52.13094810313054]
TimeCAPは、時系列データのコンテキスト化ツールとしてLarge Language Models(LLM)を創造的に利用する時系列処理フレームワークである。 TimeCAPには2つの独立したLCMエージェントが組み込まれており、1つは時系列のコンテキストをキャプチャするテキスト要約を生成し、もう1つはより情報のある予測を行うためにこのリッチな要約を使用する。実世界のデータセットによる実験結果から,TimeCAPは時系列イベント予測の最先端手法よりも優れていることが示された。
論文参考訳（メタデータ） (2025-02-17T04:17:27Z)
Time-VLM: Exploring Multimodal Vision-Language Models for Augmented Time Series Forecasting [26.4608782425897]
Time-VLMは、時間的、視覚的、テキスト的なモダリティを橋渡しして予測を強化する新しいフレームワークである。本フレームワークは,(1)記憶バンク相互作用を通じて時間的特徴を抽出する検索型学習者,(2)時系列を情報的画像としてエンコードするビジョン型学習者,(3)文脈的テキスト記述を生成するテキスト型学習者,の3つのキーコンポーネントから構成される。
論文参考訳（メタデータ） (2025-02-06T05:59:45Z)
Can Multimodal LLMs do Visual Temporal Understanding and Reasoning? The answer is No! [22.75945626401567]
本稿では,TemporalVQAという評価ベンチマークを提案する。第1部では、時間的に連続するビデオフレームを分析してイベントのシーケンスを決定するためにMLLMが必要である。第2部では、複数選択の質問としてフレーム化された時間差のある画像ペアを提示し、MLLMに秒から数年のオプションで画像間のタイムラプスを見積もる。 GPT-4o や Gemini-1.5-Pro などのモデルを含む先進MLLM の評価は,重要な課題を浮き彫りにしている。
論文参考訳（メタデータ） (2025-01-18T06:41:48Z)
Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文参考訳（メタデータ） (2024-10-24T17:56:08Z)
A Comprehensive Evaluation of Large Language Models on Temporal Event Forecasting [45.0261082985087]
時間的事象予測のための大規模言語モデル(LLM)を総合的に評価する。 LLMの入力に生テキストを直接統合しても、ゼロショット補間性能は向上しないことがわかった。対照的に、特定の複雑なイベントや微調整LDMに生テキストを組み込むことで、性能が大幅に向上する。
論文参考訳（メタデータ） (2024-07-16T11:58:54Z)
Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models [10.41857522464292]
本稿では,MultiModal Needle-in-a-haystack(MMNeedle)ベンチマークを導入する。画像ステッチを用いて、入力コンテキスト長をさらに増加させ、サブイメージレベルの検索のためのラベルを自動的に生成するプロトコルを開発する。我々は、APIベースモデルとオープンソースモデルの両方を含む最先端のMLLMを評価した。
論文参考訳（メタデータ） (2024-06-17T05:54:06Z)
Large Language Models as Event Forecasters [10.32127659470566]
人間の出来事の鍵となる要素は、主題、関係、対象、タイムスタンプからなる四重項として抽出される。これらの四重項または四重項は、特定の領域内で組織化されると、時間知識グラフ(TKG)を形成する。
論文参考訳（メタデータ） (2024-06-15T04:09:31Z)
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文参考訳（メタデータ） (2024-06-14T17:59:40Z)
MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer [106.79844459065828]
本稿では,画像テキストデータのエンドツーエンド生成モデルであるMM-Interleavedを提案する。マルチスケールおよびマルチイメージ機能同期モジュールを導入し、以前のコンテキストできめ細かい画像機能に直接アクセスできるようにする。 MM-Interleavedはマルチモーダルな指示に従って視覚的詳細を認識し、テキストと視覚の両方の条件に従って一貫した画像を生成する。
論文参考訳（メタデータ） (2024-01-18T18:50:16Z)
CoCoT: Contrastive Chain-of-Thought Prompting for Large Multimodal Models with Multiple Image Inputs [48.269363759989915]
この研究は、第1、画像対画像マッチング、第2、複数画像対テキストマッチングという2つの側面に焦点を当てている。我々は, GPT-4V, Gemini, OpenFlamingo, MMICLを含む, オープンソースおよびクローズドソースの大規模モデルについて評価を行った。
論文参考訳（メタデータ） (2024-01-05T00:26:07Z)
Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。 Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文参考訳（メタデータ） (2023-10-03T01:31:25Z)
Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文参考訳（メタデータ） (2023-05-26T19:22:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。