論文の概要: Multimodal LLMs Do Not Compose Skills Optimally Across Modalities
- arxiv url: http://arxiv.org/abs/2511.08113v1
- Date: Wed, 12 Nov 2025 01:40:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.649253
- Title: Multimodal LLMs Do Not Compose Skills Optimally Across Modalities
- Title(参考訳): マルチモーダルLLMは、モダリティ全体で最適なスキルを構成しない
- Authors: Paula Ontalvilla, Aitor Ormazabal, Gorka Azkune,
- Abstract要約: マルチモーダルな大規模言語モデルによるモダリティ間のスキル構築能力について検討する。
評価されたMLLMはいずれも,クロスモーダルなスキル構成のギャップが顕著であることがわかった。
- 参考スコア(独自算出の注目度): 7.4508858982186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Skill composition is the ability to combine previously learned skills to solve new tasks. As neural networks acquire increasingly complex skills during their pretraining, it is not clear how successfully they can compose them. In this paper, we focus on Multimodal Large Language Models (MLLM), and study their ability to compose skills across modalities. To this end, we design three evaluation tasks which can be solved sequentially composing two modality-dependent skills, and evaluate several open MLLMs under two main settings: i) prompting the model to directly solve the task, and ii) using a two-step cascaded inference approach, which manually enforces the composition of the two skills for a given task. Even with these straightforward compositions, we find that all evaluated MLLMs exhibit a significant cross-modality skill composition gap. To mitigate the aforementioned gap, we explore two alternatives: i) use chain-of-thought prompting to explicitly instruct MLLMs for skill composition and ii) a specific fine-tuning recipe to promote skill composition. Although those strategies improve model performance, they still exhibit significant skill composition gaps, suggesting that more research is needed to improve cross-modal skill composition in MLLMs.
- Abstract(参考訳): スキル・コンポジションは、以前に学んだスキルを組み合わせて新しいタスクを解く能力である。
ニューラルネットワークは、プレトレーニング中にますます複雑なスキルを身につけるため、どのように構築できるのかは明らかになっていない。
本稿では,MLLM(Multimodal Large Language Models)に着目し,モダリティ間のスキル構築能力について検討する。
この目的のために,2つのモード依存スキルを逐次構成できる3つの評価タスクを設計し,複数のオープンMLLMを2つの設定で評価する。
一 モデルにその課題を直接解決するよう促し、
二 所定の作業のための二段階の推論手法を用いて、その2つのスキルの構成を手作業で行うこと。
これらの簡単な構成であっても、評価されたすべてのMLLMは、重要なクロスモダリティスキル構成ギャップを示す。
上記のギャップを緩和するために、我々は2つの選択肢を探る。
一 技能構成のためのMLLMを明示的に指示し、又は指示するためのチェーン・オブ・シントの使用
二 技能構成を促進するための特定の微調整のレシピ
これらの戦略はモデル性能を向上させるが, MLLMにおけるクロスモーダル・スキル・コンポジションを改善するためには, さらなる研究が必要であることを示唆している。
関連論文リスト
- LoRA Soups: Merging LoRAs for Practical Skill Composition Tasks [73.09643674975591]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)のパラメータ効率の高い微調整手法である。
異なるLoRAモジュールをマージして,スキルコンポジションを実現する方法について検討する。
論文 参考訳(メタデータ) (2024-10-16T20:33:06Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Agentic Skill Discovery [19.5703917813767]
言語条件付きロボット技術により、Large Language Models (LLMs) の高レベル推論を低レベルロボット制御に適用することができる。
残る課題は、さまざまな基本的なスキルを取得することです。
LLMによって完全に駆動されるスキル発見のための新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-05-23T19:44:03Z) - Skills-in-Context Prompting: Unlocking Compositionality in Large Language Models [68.18370230899102]
大規模言語モデル(LLM)における構成一般化能力の活用法について検討する。
我々は,これらのスキルに基礎を置く基礎的スキルと構成的事例の両方を同じプロンプト・コンテキストで示すことが重要であることを発見した。
SKiC型データを用いた微調整LDMは、ゼロショット弱強一般化を導出できることを示す。
論文 参考訳(メタデータ) (2023-08-01T05:54:12Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。