論文の概要: Period-LLM: Extending the Periodic Capability of Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2505.24476v1
- Date: Fri, 30 May 2025 11:23:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.922314
- Title: Period-LLM: Extending the Periodic Capability of Multimodal Large Language Model
- Title(参考訳): Period-LLM:マルチモーダル大言語モデルの周期的機能拡張
- Authors: Yuting Zhang, Hao Lu, Qingyong Hu, Yin Wang, Kaishen Yuan, Xin Liu, Kaishun Wu,
- Abstract要約: 現在のMultimodal Large Language Models (MLLM) は,1) 時間的モデリングの欠如,2) 短周期と長周期の競合による周期的タスクに苦慮している。
本稿では,多モーダルな言語モデルである Period-LLM について紹介する。
- 参考スコア(独自算出の注目度): 26.655013761142758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Periodic or quasi-periodic phenomena reveal intrinsic characteristics in various natural processes, such as weather patterns, movement behaviors, traffic flows, and biological signals. Given that these phenomena span multiple modalities, the capabilities of Multimodal Large Language Models (MLLMs) offer promising potential to effectively capture and understand their complex nature. However, current MLLMs struggle with periodic tasks due to limitations in: 1) lack of temporal modelling and 2) conflict between short and long periods. This paper introduces Period-LLM, a multimodal large language model designed to enhance the performance of periodic tasks across various modalities, and constructs a benchmark of various difficulty for evaluating the cross-modal periodic capabilities of large models. Specially, We adopt an "Easy to Hard Generalization" paradigm, starting with relatively simple text-based tasks and progressing to more complex visual and multimodal tasks, ensuring that the model gradually builds robust periodic reasoning capabilities. Additionally, we propose a "Resisting Logical Oblivion" optimization strategy to maintain periodic reasoning abilities during semantic alignment. Extensive experiments demonstrate the superiority of the proposed Period-LLM over existing MLLMs in periodic tasks. The code is available at https://github.com/keke-nice/Period-LLM.
- Abstract(参考訳): 周期的または準周期的な現象は、気象パターン、移動行動、交通の流れ、生物学的信号など、様々な自然過程において固有の特徴を示す。
これらの現象は複数のモードにまたがるので、MLLM(Multimodal Large Language Models)の能力は、それらの複雑な性質を効果的に捉え、理解するための有望な可能性を提供する。
しかし、現在のMLLMは、以下の制限により、周期的なタスクに苦しむ。
1)時間的モデリングの欠如と
2)短い期間と長い期間の対立。
本稿では,多モーダルな言語モデルである period-LLM について紹介する。
特に、比較的単純なテキストベースのタスクから始まり、より複雑な視覚的およびマルチモーダルタスクへと進化し、モデルが頑健な周期的推論能力を徐々に構築することを保証する「簡単でハードな一般化」パラダイムを採用しています。
さらに,セマンティックアライメント中に周期的推論能力を維持するために,"Resisting Logical Oblivion"最適化戦略を提案する。
大規模実験により, 既存のMLLMよりも周期的タスクにおいて, 提案した周期型LLMの方が優れていることが示された。
コードはhttps://github.com/keke-nice/Period-LLMで公開されている。
関連論文リスト
- MLLMs are Deeply Affected by Modality Bias [158.64371871084478]
MLLM(Multimodal Large Language Models)の最近の進歩は、テキストや画像などの多様なモダリティを統合する上で、有望な成果を示している。
MLLMはモダリティバイアスに強く影響され、しばしば言語に依存し、視覚入力のような他のモダリティを過小評価する。
本稿では,MLLMはモダリティバイアスの影響を強く受けており,様々なタスクにまたがってその発現を明らかにする。
論文 参考訳(メタデータ) (2025-05-24T11:49:31Z) - LLM-PS: Empowering Large Language Models for Time Series Forecasting with Temporal Patterns and Semantics [56.99021951927683]
Time Series Forecasting (TSF) は、金融計画や健康モニタリングなど、多くの現実世界のドメインにおいて重要である。
既存のLarge Language Models (LLM) は通常、時系列データ固有の特性を無視するため、非最適に実行する。
時系列データから基本的なtextitPatterns と有意義な textitSemantics を学習し,TLF のための LLM-PS を提案する。
論文 参考訳(メタデータ) (2025-03-12T11:45:11Z) - Position: Empowering Time Series Reasoning with Multimodal LLMs [49.73647759532127]
マルチモーダル言語モデル (MLLM) は時系列解析においてより強力で柔軟な推論を可能にすると論じる。
我々は、MLLMにおける信頼、解釈可能性、堅牢な推論を優先する戦略を開発することで、この可能性を活用するよう研究者や実践者に呼びかける。
論文 参考訳(メタデータ) (2025-02-03T16:10:48Z) - TempoGPT: Enhancing Time Series Reasoning via Quantizing Embedding [13.996105878417204]
本稿では,マルチモーダル時系列データ構築手法とマルチモーダル時系列言語モデル(TLM, TempoGPT)を提案する。
ホワイトボックスシステム内の変数-システム関係を解析することにより,複雑な推論タスクのためのマルチモーダルデータを構築する。
広範な実験により、TempoGPTは時間的情報を正確に知覚し、結論を論理的に推論し、構築された複雑な時系列推論タスクにおける最先端の処理を達成することが示されている。
論文 参考訳(メタデータ) (2025-01-13T13:47:05Z) - Multimodal Large Models Are Effective Action Anticipators [10.454791411515812]
ActionLLMは、ビデオシーケンスを逐次トークンとして扱う新しいアプローチであり、将来のアクションを予測するために大規模言語モデルを活用する。
我々のベースラインモデルは、将来のトークンを設定し、アクションチューニングモジュールを導入し、テキストデコーダ層を線形層に減らし、LCMアーキテクチャを単純化する。
LLMのコモンセンス推論をさらに活用するために、観察されたフレームに対するアクションカテゴリを予測し、シーケンシャルな意味理解を導くためにシーケンシャルなテキスト手がかりを使用する。
論文 参考訳(メタデータ) (2025-01-01T10:16:10Z) - InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。