Fugu-MT 論文翻訳(概要): Merlin:Empowering Multimodal LLMs with Foresight Minds

論文の概要: Merlin:Empowering Multimodal LLMs with Foresight Minds

arxiv url: http://arxiv.org/abs/2312.00589v1
Date: Thu, 30 Nov 2023 17:57:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-04 14:33:13.487482
Title: Merlin:Empowering Multimodal LLMs with Foresight Minds
Title（参考訳）: Merlin:先見的なマルチモーダル LLM のパワーアップ
Authors: En Yu, Liang Zhao, Yana Wei, Jinrong Yang, Dongming Wu, Lingyu Kong, Haoran Wei, Tiancai Wang, Zheng Ge, Xiangyu Zhang, Wenbing Tao
Abstract要約: MLLM(Multimodal Large Language Models)の既存の学習フレームワークへの将来のモデリングの統合について紹介する。本稿では,MLLMをフォレスト・マインドで強化する2つの革新的な手法を提案する。 FPTはトラジェクトリを中心とした様々なタスクを共同で訓練し、MLLMは与えられた初期観測からトラジェクトリ全体への参加と予測の仕方を学ぶことができる。 FITはMLLMに対して、まず関連するオブジェクトの軌道を予測し、それに基づいて将来の事象を推論する。
参考スコア（独自算出の注目度）: 41.74840290768704
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Humans possess the remarkable ability to foresee the future to a certain extent based on present observations, a skill we term as foresight minds. However, this capability remains largely under explored within existing Multimodal Large Language Models (MLLMs), hindering their capacity to learn the fundamental principles of how things operate and the intentions behind the observed subjects. To address this issue, we introduce the integration of future modeling into the existing learning frameworks of MLLMs. By utilizing the subject trajectory, a highly structured representation of a consecutive frame sequence, as a learning objective, we aim to bridge the gap between the past and the future. We propose two innovative methods to empower MLLMs with foresight minds, Foresight Pre-Training (FPT) and Foresight Instruction-Tuning (FIT), which are inspired by the modern learning paradigm of LLMs. Specifically, FPT jointly training various tasks centered on trajectories, enabling MLLMs to learn how to attend and predict entire trajectories from a given initial observation. Then, FIT requires MLLMs to first predict trajectories of related objects and then reason about potential future events based on them. Aided by FPT and FIT, we build a novel and unified MLLM named Merlin that supports multi-images input and analysis about potential actions of multiple objects for the future reasoning. Experimental results show Merlin powerful foresight minds with impressive performance on both future reasoning and visual comprehension tasks.
Abstract（参考訳）: 人間は、現在の観察に基づいて未来をある程度予知する驚くべき能力を持っている。しかし、この能力は既存のMLLM(Multimodal Large Language Models)の中で研究され、物事の動作の基本的な原理と観察対象の背後にある意図を学ぶ能力を妨げている。この問題に対処するため,我々はMLLMの既存の学習フレームワークに将来のモデリングの統合を導入する。連続するフレーム列の高度に構造化された表現である対象軌跡を学習目的として利用することにより,過去と未来の間のギャップを埋めることを目指す。本稿では,MLLMの学習パラダイムにインスパイアされた,フォレスト・プレトレーニング(FPT)とフォレスト・インストラクション・チューニング(FIT)の2つの革新的手法を提案する。具体的には、FPTはトラジェクトリを中心とした様々なタスクを共同で訓練し、MLLMは与えられた初期観測からトラジェクトリ全体への参加と予測の仕方を学ぶことができる。次に、FITはMLLMに対して、まず関連するオブジェクトの軌道を予測し、それに基づいて将来の事象を推論する。 FPTとFITに助けられ、Merlinという新しい統一MLLMを構築し、将来の推論のために複数のオブジェクトの潜在的な動作に関するマルチイメージ入力と分析をサポートする。実験の結果,将来の推論と視覚理解の両方において有意な性能を持つ有能な先見心が得られた。

関連論文リスト

Advancing Multimodal Reasoning Capabilities of Multimodal Large Language Models via Visual Perception Reward [87.06604760273372]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文参考訳（メタデータ） (2025-06-08T16:48:42Z)
Deciphering Trajectory-Aided LLM Reasoning: An Optimization Perspective [35.898734823687576]
本稿では,メタ学習の観点から,大規模言語モデル(LLM)の推論能力を理解するためのフレームワークを提案する。我々は,個別のタスクとして扱われる質問に対して,メタラーニング・セットアップとして推論タスクのトレーニングプロセスを定式化する。我々の研究は、確立したメタ学習技術によってこれらのモデルを改善するための実践的な洞察を提供する。
論文参考訳（メタデータ） (2025-05-26T10:52:17Z)
Learning Beyond the Surface: How Far Can Continual Pre-Training with LoRA Enhance LLMs' Domain-Specific Insight Learning? [4.390998479503661]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示している。しかし、ドメイン固有のデータセットからより深い洞察を抽出し、内部化する能力は、まだ探索されていない。本研究は, インサイトラーニングにおけるLCMの能力を高めるために, 連続的事前学習がいかに有効かを検討する。
論文参考訳（メタデータ） (2025-01-29T18:40:32Z)
Exploring Large Language Models for Multimodal Sentiment Analysis: Challenges, Benchmarks, and Future Directions [0.0]
マルチモーダル・アスペクトベース感性分析(MABSA)は、テキストや画像を含む多モーダル情報からアスペクト項とその対応する感情極性を抽出することを目的としている。従来の教師付き学習手法はこの課題において有効性を示したが、大規模言語モデル(LLM)のMABSAへの適応性は未だ不明である。 Llama2、LLaVA、ChatGPTなどのLLMの最近の進歩は、一般的なタスクにおいて強力な能力を示しているが、MABSAのような複雑できめ細かなシナリオでは、その性能が過小評価されている。
論文参考訳（メタデータ） (2024-11-23T02:17:10Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Generative AI-in-the-loop: Integrating LLMs and GPTs into the Next Generation Networks [11.509880721677156]
大規模言語モデル(LLM)が最近登場し、認知タスクにおけるほぼ人間レベルのパフォーマンスを実証している。次世代AI-in-the-loop」の概念を提案する。 LLMとMLモデルを組み合わせることで、それぞれの能力を活用し、どちらのモデルよりも優れた結果が得られると考えています。
論文参考訳（メタデータ） (2024-06-06T17:25:07Z)
NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文参考訳（メタデータ） (2024-05-27T03:24:01Z)
Traj-LLM: A New Exploration for Empowering Trajectory Prediction with Pre-trained Large Language Models [12.687494201105066]
本稿では,Traj-LLMを提案する。Large Language Models (LLMs) を用いて,エージェントの過去の/観測された軌跡やシーンセマンティクスから将来の動きを生成する可能性について検討する。 LLMの強力な理解能力は、ハイレベルなシーン知識とインタラクティブな情報のスペクトルを捉えている。人為的な車線焦点認知機能を模倣し,先駆的なMambaモジュールを用いた車線認識確率論的学習を導入する。
論文参考訳（メタデータ） (2024-05-08T09:28:04Z)
Towards Modeling Learner Performance with Large Language Models [7.002923425715133]
本稿では,LLMのパターン認識とシーケンスモデリング機能が,知識追跡の領域にまで拡張できるかどうかを検討する。ゼロショットプロンプト(ゼロショットプロンプト)とモデル微調整(モデル微調整)の2つの手法と,既存のLLM以外の知識追跡手法を比較した。 LLMベースのアプローチは最先端のパフォーマンスを達成しないが、微調整のLLMは素早いベースラインモデルの性能を上回り、標準的なベイズ的知識追跡手法と同等に機能する。
論文参考訳（メタデータ） (2024-02-29T14:06:34Z)
Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文参考訳（メタデータ） (2024-01-19T05:02:46Z)
Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文参考訳（メタデータ） (2024-01-14T16:17:07Z)
Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文参考訳（メタデータ） (2023-11-27T12:29:20Z)
A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文参考訳（メタデータ） (2023-06-23T15:21:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。