論文の概要: Merlin:Empowering Multimodal LLMs with Foresight Minds
- arxiv url: http://arxiv.org/abs/2312.00589v2
- Date: Wed, 3 Jul 2024 17:58:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 20:23:32.701663
- Title: Merlin:Empowering Multimodal LLMs with Foresight Minds
- Title(参考訳): Merlin:先見的なマルチモーダル LLM のパワーアップ
- Authors: En Yu, Liang Zhao, Yana Wei, Jinrong Yang, Dongming Wu, Lingyu Kong, Haoran Wei, Tiancai Wang, Zheng Ge, Xiangyu Zhang, Wenbing Tao,
- Abstract要約: MLLM(Multimodal Large Language Models)の既存の学習フレームワークへの将来のモデリングの統合について紹介する。
本稿では,MLLMをフォレスト・マインドで強化する2つの革新的な手法を提案する。
FPTはトラジェクトリを中心とした様々なタスクを共同で訓練し、MLLMは与えられた初期観測からトラジェクトリ全体への参加と予測の仕方を学ぶことができる。
FITはMLLMに対して、まず関連するオブジェクトの軌道を予測し、それに基づいて将来の事象を推論する。
- 参考スコア(独自算出の注目度): 40.54175239717357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans possess the remarkable ability to foresee the future to a certain extent based on present observations, a skill we term as foresight minds. However, this capability remains largely under explored within existing Multimodal Large Language Models (MLLMs), hindering their capacity to learn the fundamental principles of how things operate and the intentions behind the observed subjects. To address this issue, we introduce the integration of future modeling into the existing learning frameworks of MLLMs. By utilizing the subject trajectory, a highly structured representation of a consecutive frame sequence, as a learning objective, we aim to bridge the gap between the past and the future. We propose two innovative methods to empower MLLMs with foresight minds, Foresight Pre-Training (FPT) and Foresight Instruction-Tuning (FIT), which are inspired by the modern learning paradigm of LLMs. Specifically, FPT jointly training various tasks centered on trajectories, enabling MLLMs to learn how to attend and predict entire trajectories from a given initial observation. Then, FIT requires MLLMs to first predict trajectories of related objects and then reason about potential future events based on them. Aided by FPT and FIT, we build a novel and unified MLLM named Merlin that supports multi-images input and analysis about potential actions of multiple objects for the future reasoning. Experimental results show Merlin powerful foresight minds with impressive performance on both future reasoning and visual comprehension tasks.
- Abstract(参考訳): 人間は、現在の観察に基づいて未来をある程度予知する驚くべき能力を持っている。
しかし、この能力は、既存のMLLM(Multimodal Large Language Models)内で主に検討されており、物事の動作の基本的な原理と観察対象の背後にある意図を学ぶ能力を妨げる。
この問題に対処するため,我々はMLLMの既存の学習フレームワークに将来のモデリングの統合を導入する。
連続するフレーム列の高度に構造化された表現である対象軌跡を学習目的として利用することにより,過去と未来の間のギャップを埋めることを目指す。
本稿では,MLLMの学習パラダイムにインスパイアされた,フォレスト・プレトレーニング(FPT)とフォレスト・インストラクション・チューニング(FIT)の2つの革新的手法を提案する。
具体的には、FPTはトラジェクトリを中心とした様々なタスクを共同で訓練し、MLLMは与えられた初期観測からトラジェクトリ全体への参加と予測の仕方を学ぶことができる。
次に、FITはMLLMに対して、まず関連するオブジェクトの軌道を予測し、それに基づいて将来の事象を推論する。
FPT と FIT の支援を受けて,Merlin という新しい統合MLLM を構築した。
実験結果から,将来の推論と視覚的理解の両タスクにおいて,メルリンの力強い視力を示すことが示唆された。
関連論文リスト
- Exploring Large Language Models for Multimodal Sentiment Analysis: Challenges, Benchmarks, and Future Directions [0.0]
マルチモーダル・アスペクトベース感性分析(MABSA)は、テキストや画像を含む多モーダル情報からアスペクト項とその対応する感情極性を抽出することを目的としている。
従来の教師付き学習手法はこの課題において有効性を示したが、大規模言語モデル(LLM)のMABSAへの適応性は未だ不明である。
Llama2、LLaVA、ChatGPTなどのLLMの最近の進歩は、一般的なタスクにおいて強力な能力を示しているが、MABSAのような複雑できめ細かなシナリオでは、その性能が過小評価されている。
論文 参考訳(メタデータ) (2024-11-23T02:17:10Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Generative AI-in-the-loop: Integrating LLMs and GPTs into the Next Generation Networks [11.509880721677156]
大規模言語モデル(LLM)が最近登場し、認知タスクにおけるほぼ人間レベルのパフォーマンスを実証している。
次世代AI-in-the-loop」の概念を提案する。
LLMとMLモデルを組み合わせることで、それぞれの能力を活用し、どちらのモデルよりも優れた結果が得られると考えています。
論文 参考訳(メタデータ) (2024-06-06T17:25:07Z) - Traj-LLM: A New Exploration for Empowering Trajectory Prediction with Pre-trained Large Language Models [12.687494201105066]
本稿では,Traj-LLMを提案する。Large Language Models (LLMs) を用いて,エージェントの過去の/観測された軌跡やシーンセマンティクスから将来の動きを生成する可能性について検討する。
LLMの強力な理解能力は、ハイレベルなシーン知識とインタラクティブな情報のスペクトルを捉えている。
人為的な車線焦点認知機能を模倣し,先駆的なMambaモジュールを用いた車線認識確率論的学習を導入する。
論文 参考訳(メタデータ) (2024-05-08T09:28:04Z) - Towards Modeling Learner Performance with Large Language Models [7.002923425715133]
本稿では,LLMのパターン認識とシーケンスモデリング機能が,知識追跡の領域にまで拡張できるかどうかを検討する。
ゼロショットプロンプト(ゼロショットプロンプト)とモデル微調整(モデル微調整)の2つの手法と,既存のLLM以外の知識追跡手法を比較した。
LLMベースのアプローチは最先端のパフォーマンスを達成しないが、微調整のLLMは素早いベースラインモデルの性能を上回り、標準的なベイズ的知識追跡手法と同等に機能する。
論文 参考訳(メタデータ) (2024-02-29T14:06:34Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage
and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。
具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。
実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文 参考訳(メタデータ) (2023-11-27T12:29:20Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。