論文の概要: Virgo: A Preliminary Exploration on Reproducing o1-like MLLM
- arxiv url: http://arxiv.org/abs/2501.01904v1
- Date: Fri, 03 Jan 2025 17:14:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:12:18.450551
- Title: Virgo: A Preliminary Exploration on Reproducing o1-like MLLM
- Title(参考訳): Virgo: o1ライクなMLLMの予備的な探索
- Authors: Yifan Du, Zikang Liu, Yifan Li, Wayne Xin Zhao, Yuqi Huo, Bingning Wang, Weipeng Chen, Zheng Liu, Zhongyuan Wang, Ji-Rong Wen,
- Abstract要約: スロー思考推論システムは、推論中の思考時間をスケールすることで、広く注目を集めている。
マルチモーダル大規模言語モデル(MLLM)への適応にも関心が高まっている。
本稿では,少量のテキスト長文思考データを用いて,有能なMLLMを微調整することで,簡単なアプローチを探索する。
自然言語で表現されたこれらの長文推論プロセスは,MLLMに効果的に転送できることがわかった。
- 参考スコア(独自算出の注目度): 89.50691075011429
- License:
- Abstract: Recently, slow-thinking reasoning systems, built upon large language models (LLMs), have garnered widespread attention by scaling the thinking time during inference. There is also growing interest in adapting this capability to multimodal large language models (MLLMs). Given that MLLMs handle more complex data semantics across different modalities, it is intuitively more challenging to implement multimodal slow-thinking systems. To address this issue, in this paper, we explore a straightforward approach by fine-tuning a capable MLLM with a small amount of textual long-form thought data, resulting in a multimodal slow-thinking system, Virgo (Visual reasoning with long thought). We find that these long-form reasoning processes, expressed in natural language, can be effectively transferred to MLLMs. Moreover, it seems that such textual reasoning data can be even more effective than visual reasoning data in eliciting the slow-thinking capacities of MLLMs. While this work is preliminary, it demonstrates that slow-thinking capacities are fundamentally associated with the language model component, which can be transferred across modalities or domains. This finding can be leveraged to guide the development of more powerful slow-thinking reasoning systems. We release our resources at https://github.com/RUCAIBox/Virgo.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) 上に構築されたゆっくり考えられた推論システムは,推論中の思考時間をスケールすることで,広く注目を集めている。
また、この機能をMLLM(Multimodal large language model)に適用することへの関心が高まっている。
MLLMが様々なモダリティにまたがるより複雑なデータセマンティクスを扱うことを考えると、マルチモーダルなスロー思考システムを実装することは直感的に困難である。
この問題に対処するため,本稿では,少数のテキスト長文思考データを用いて有能なMLLMを微調整し,マルチモーダルなスロー思考システムであるVirgoを提案する。
自然言語で表現されたこれらの長文推論プロセスは,MLLMに効果的に転送できることがわかった。
さらに、このようなテキスト推論データは、MLLMの遅い思考能力を引き出す際に、視覚的推論データよりも効果的であると考えられる。
この作業は予備的なものであるが、遅い考えの能力が言語モデルコンポーネントと根本的に関連していることを示し、モダリティやドメイン間で転送可能である。
この発見を利用して、より強力なスロー思考推論システムの開発を導くことができる。
私たちはリソースをhttps://github.com/RUCAIBox/Virgo.comでリリースします。
関連論文リスト
- Can Multimodal Large Language Model Think Analogically? [9.517193263050228]
MLLM(Multimodal Large Language Model)は、その創発的な機能のために最近、かなりの議論を巻き起こした。
説明者としてのtextitMLLM と予測者としての textitMLLM の2つの側面を探索する。
本稿では、MLLMの理解能力を利用して既存のモデルを拡張する統一的なプロンプトテンプレートと手法を提案する。
論文 参考訳(メタデータ) (2024-11-02T16:59:49Z) - The Labyrinth of Links: Navigating the Associative Maze of Multi-modal LLMs [42.72336063802124]
MLLM(Multi-modal Large Language Models)は印象的な能力を示す。
MLLMの欠陥の多くは、人間の知性(例えば$textite.g.$)と比較して見出されている。
観察と事前の実践記憶をリンクする人間の基本的な能力であるtextbfassociation$。
論文 参考訳(メタデータ) (2024-10-02T10:58:54Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。
一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。
MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2024-07-11T15:08:11Z) - Efficient Multimodal Large Language Models: A Survey [60.7614299984182]
MLLM(Multimodal Large Language Models)は、視覚的質問応答、視覚的理解、推論などのタスクにおいて顕著な性能を示す。
モデルサイズと高いトレーニングと推論コストが、MLLMのアカデミックや産業への応用を妨げている。
本調査は,効率的なMLLMの現状を包括的かつ体系的に概観するものである。
論文 参考訳(メタデータ) (2024-05-17T12:37:10Z) - The Curious Case of Nonverbal Abstract Reasoning with Multi-Modal Large Language Models [19.213774611556]
MLLM(Multi-modal large language model)は、言語情報と視覚情報を統合したものである。
MLLMの革新的展望にもかかわらず、推論能力に対する我々の理解は限られている。
本研究では,オープンソースおよびクローズドソースMLLMの非言語的抽象的推論能力を評価する。
論文 参考訳(メタデータ) (2024-01-22T16:57:05Z) - Lenna: Language Enhanced Reasoning Detection Assistant [22.105472753701076]
大規模な言語モデルに埋め込まれた推論能力と世界知識は、画像認識タスクにおいて、はるかに少ない研究と活用がなされている。
MLLMの頑健なマルチモーダル特徴表現を利用した言語強化推論検出アシスタントLennaを提案する。
LennaはReasonDetで優れたパフォーマンスを示しており、トレーニングコストはかなり低い。
論文 参考訳(メタデータ) (2023-12-05T02:19:35Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。