論文の概要: Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2412.18319v1
- Date: Tue, 24 Dec 2024 10:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:56:22.996474
- Title: Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search
- Title(参考訳): Mulberry: モンテカルロ木探索によるo1ライクな推論と反射によるMLLMの強化
- Authors: Huanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, Yuxin Song, Haocheng Feng, Li Shen, Dacheng Tao,
- Abstract要約: 効率的な推論パス探索と学習のための集合モンテカルロ木探索(CoMCTS)を提案する。
我々はMulberry-260kを構築する。Mulberry-260kはマルチモーダルなデータセットで、各質問に対してリッチで明示的で明確に定義された推論ノードのツリーを持つ。
我々は、o1のようなステップバイステップ推論とリフレクション機能を備えたMLLMの一連のモデルであるMulberryを訓練するために、集合SFTを実行する。
- 参考スコア(独自算出の注目度): 74.46681227410038
- License:
- Abstract: In this work, we aim to develop an MLLM that understands and solves questions by learning to create each intermediate step of the reasoning involved till the final answer. To this end, we propose Collective Monte Carlo Tree Search (CoMCTS), a new learning-to-reason method for MLLMs, which introduces the concept of collective learning into ``tree search'' for effective and efficient reasoning-path searching and learning. The core idea of CoMCTS is to leverage collective knowledge from multiple models to collaboratively conjecture, search and identify effective reasoning paths toward correct answers via four iterative operations including Expansion, Simulation and Error Positioning, Backpropagation, and Selection. Using CoMCTS, we construct Mulberry-260k, a multimodal dataset with a tree of rich, explicit and well-defined reasoning nodes for each question. With Mulberry-260k, we perform collective SFT to train our model, Mulberry, a series of MLLMs with o1-like step-by-step Reasoning and Reflection capabilities. Extensive experiments demonstrate the superiority of our proposed methods on various benchmarks. Code will be available at https://github.com/HJYao00/Mulberry
- Abstract(参考訳): 本研究は,最終回答まで係わる推論の各中間段階を学習することで,質問を理解し,解決するMLLMを開発することを目的とする。
そこで本稿では,MLLM の新しい学習・推論手法である Collective Monte Carlo Tree Search (CoMCTS) を提案する。
CoMCTSの中核となる考え方は、複数のモデルからの集合的知識を活用して、拡張、シミュレーション、エラー位置決め、バックプロパゲーション、選択を含む4つの反復的な操作を通じて、正しい答えに対する効果的な推論経路を探索し、同定することである。
CoMCTSを用いたマルチモーダルデータセットであるMulberry-260kを構築する。
Mulberry-260kで、我々はモデルであるMulberryを訓練するために集合SFTを実行します。
様々なベンチマークにおいて,提案手法の優位性を示す実験を行った。
コードはhttps://github.com/HJYao00/Mulberryで入手できる。
関連論文リスト
- MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Zero-Shot Multi-Hop Question Answering via Monte-Carlo Tree Search with Large Language Models [19.214387260667348]
本稿ではモンテカルロ木探索(MCTS)に基づくMZQA(Zero-shot Multi-hop Question Answering)を提案する。
従来とは違って,通常はドメインの専門知識を必要とする手作りの少数ショットの例をサポートせずに,命令のみに依存するゼロショットプロンプト手法を提案する。
また,MZQA-BCは自己生成MCTS推論軌道を学習し,解析速度を10倍以上に向上させる。
論文 参考訳(メタデータ) (2024-09-28T15:13:04Z) - Tree-of-Traversals: A Zero-Shot Reasoning Algorithm for Augmenting Black-box Language Models with Knowledge Graphs [72.89652710634051]
知識グラフ(KG)は、信頼性があり、構造化され、ドメイン固有であり、最新の外部知識を提供することで、Large Language Models(LLM)を補完する。
そこで本研究では,ゼロショット推論アルゴリズムであるTree-of-Traversalsを導入する。
論文 参考訳(メタデータ) (2024-07-31T06:01:24Z) - Uncertainty-Guided Optimization on Large Language Model Search Trees [42.71167208999792]
大規模言語モデル(LLM)の復号過程における最大可能性列の探索においては,greedy や beam search などの木探索アルゴリズムが標準となっている。
LLMの遷移確率に関する事前の信念を定義し、各反復において最も有望な経路についての後続の信念を得る。
モンテカルロ木探索のような高価なシミュレーションに基づく非光学的手法とは異なり、我々の手法は信念からのサンプルのみを必要とする。
論文 参考訳(メタデータ) (2024-07-04T14:08:50Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Autonomous Tree-search Ability of Large Language Models [58.68735916408101]
大規模言語モデルは、高度なプロンプト技術で顕著な推論能力に優れています。
近年の研究では、LLMがより困難な推論タスクを解くために受動的木探索を行えるように、検索ロジックを定義するために外部プログラムを活用することが提案されている。
我々は,LLMの自律木探索能力という新しい概念を提案し,正しい解を求める探索軌跡を含む応答を自動生成する。
論文 参考訳(メタデータ) (2023-10-14T14:14:38Z) - Alphazero-like Tree-Search can Guide Large Language Model Decoding and
Training [37.79247073276239]
ToT(Tree-of-Thought)やRAP(Reasoning via Planning)といった最近の研究は、LLMの推論能力を強化することを目的としている。
LLMのためのAlphaZeroライクな木探索学習フレームワーク(TS-LLM)を提案する。
学習価値関数を用いた木探索がLLM復号を導出する方法を示す。
論文 参考訳(メタデータ) (2023-09-29T12:20:19Z) - A Large Language Model Enhanced Conversational Recommender System [25.18571087071163]
会話推薦システム(CRS)は,対話インタフェースを通じて高品質なアイテムをユーザに推薦することを目的としている。
効果的なCRSを開発するには,1)サブタスクを適切に管理する方法,2)異なるサブタスクを効果的に解決する方法,3)ユーザと対話するレスポンスを正しく生成する方法,といった課題がある。
近年、Large Language Models (LLMs) は、より強力なCRSを開発する新たな機会として、推論と生成の先例のない能力を示した。
論文 参考訳(メタデータ) (2023-08-11T16:30:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。