Fugu-MT 論文翻訳(概要): Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

論文の概要: Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

arxiv url: http://arxiv.org/abs/2412.18319v1
Date: Tue, 24 Dec 2024 10:07:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-25 19:23:17.745787
Title: Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search
Title（参考訳）: Mulberry: モンテカルロ木探索によるo1ライクな推論と反射によるMLLMの強化
Authors: Huanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, Yuxin Song, Haocheng Feng, Li Shen, Dacheng Tao,
Abstract要約: 効率的な推論パス探索と学習のための集合モンテカルロ木探索(CoMCTS)を提案する。我々はMulberry-260kを構築する。Mulberry-260kはマルチモーダルなデータセットで、各質問に対してリッチで明示的で明確に定義された推論ノードのツリーを持つ。我々は、o1のようなステップバイステップ推論とリフレクション機能を備えたMLLMの一連のモデルであるMulberryを訓練するために、集合SFTを実行する。
参考スコア（独自算出の注目度）: 74.46681227410038
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we aim to develop an MLLM that understands and solves questions by learning to create each intermediate step of the reasoning involved till the final answer. To this end, we propose Collective Monte Carlo Tree Search (CoMCTS), a new learning-to-reason method for MLLMs, which introduces the concept of collective learning into ``tree search'' for effective and efficient reasoning-path searching and learning. The core idea of CoMCTS is to leverage collective knowledge from multiple models to collaboratively conjecture, search and identify effective reasoning paths toward correct answers via four iterative operations including Expansion, Simulation and Error Positioning, Backpropagation, and Selection. Using CoMCTS, we construct Mulberry-260k, a multimodal dataset with a tree of rich, explicit and well-defined reasoning nodes for each question. With Mulberry-260k, we perform collective SFT to train our model, Mulberry, a series of MLLMs with o1-like step-by-step Reasoning and Reflection capabilities. Extensive experiments demonstrate the superiority of our proposed methods on various benchmarks. Code will be available at https://github.com/HJYao00/Mulberry
Abstract（参考訳）: 本研究は,最終回答まで係わる推論の各中間段階を学習することで,質問を理解し,解決するMLLMを開発することを目的とする。そこで本稿では,MLLM の新しい学習・推論手法である Collective Monte Carlo Tree Search (CoMCTS) を提案する。 CoMCTSの中核となる考え方は、複数のモデルからの集合的知識を活用して、拡張、シミュレーション、エラー位置決め、バックプロパゲーション、選択を含む4つの反復的な操作を通じて、正しい答えに対する効果的な推論経路を探索し、同定することである。 CoMCTSを用いたマルチモーダルデータセットであるMulberry-260kを構築する。 Mulberry-260kで、我々はモデルであるMulberryを訓練するために集合SFTを実行します。様々なベンチマークにおいて,提案手法の優位性を示す実験を行った。コードはhttps://github.com/HJYao00/Mulberryで入手できる。

関連論文リスト

ReJump: A Tree-Jump Representation for Analyzing and Improving LLM Reasoning [29.544265034647434]
ReJumpは、中間的な問題解決ステップの木のノードへの訪問順序として推論トレースを表す。我々は,2つのタスクに対して最先端のLarge Language Model (LRMs) を評価し,類似した精度のモデルが明確な推論行動を示すことを発見した。学習戦略が推論をどう形成するかをより深く理解するために,ReJumpを用いて蒸留LRMを教師と比較し,CoTが推進するLLMとLRMを比較し,推論の事例数や強化学習が推論行動にどう影響するかを検討する。
論文参考訳（メタデータ） (2025-11-30T10:39:53Z)
TreeMind: Automatically Reproducing Android Bug Reports via LLM-empowered Monte Carlo Tree Search [24.23102808875548]
そこで我々は,大規模言語モデルとモンテカルロ木探索アルゴリズムを統合し,バグ再現における戦略的UI探索を実現する新しい手法であるTreeMindを提案する。私たちの知る限りでは、これは、外部の意思決定とセマンティック推論を組み合わせた、信頼性のあるバグ再現のための最初の作業です。広範に使用されている3つのベンチマークから、実世界の93のAndroidバグレポートのデータセットに基づいて、TreeMindを評価した。実験の結果、再現成功率の4つの最先端のベースラインを著しく上回っていることが示された。
論文参考訳（メタデータ） (2025-09-26T14:50:13Z)
SELT: Self-Evaluation Tree Search for LLMs with Task Decomposition [5.5688696788198975]
外部報酬モデルに頼らずにLSM推論を強化する新しいフレームワークであるSELT(Self-Evaluation LLM Tree Search)を紹介する。知識に基づくMMLUとツール学習データセットSeal-Toolsを含む,挑戦的なベンチマークに対するアプローチを検証する。
論文参考訳（メタデータ） (2025-06-09T08:52:27Z)
Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。エージェント検索フレームワークであるEXSEARCHを提案する。 4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-26T15:27:55Z)
Multi-LLM Collaborative Search for Complex Problem Solving [54.194370845153784]
そこで我々は,Mixture-of-Search-Agents(MoSA)パラダイムを提案する。 MoSAは、独立した探索とLCM間の反復的精錬を組み合わせることで、様々な推論経路を統合する。モンテカルロ木探索(MCTS)をバックボーンとして使用することにより、複数のエージェントが推論ステップを提案して集約することが可能となり、精度が向上する。
論文参考訳（メタデータ） (2025-02-26T06:31:04Z)
I-MCTS: Enhancing Agentic AutoML via Introspective Monte Carlo Tree Search [10.718560472954644]
イントロスペクティブモンテカルロ木探索(Introspective Monte Carlo Tree Search, I-MCTS)は、イントロスペクティブプロセスを通じてツリーノードを反復的に拡張する新しいアプローチである。我々は,各ノードの解の直接評価を容易にするために,LLM(Large Language Model)ベースの値モデルを統合する。当社のアプローチでは,強力なオープンソースAutoMLエージェントと比較して,パフォーマンスが6%向上している。
論文参考訳（メタデータ） (2025-02-20T16:19:09Z)
Prompting Large Language Models with Rationale Heuristics for Knowledge-based Visual Question Answering [6.745948705869626]
我々は,先行手法がLarge Language Models (LLM) の容量を十分に活性化していないことを論じる。本稿では,知識に基づく VQA のための LLM と Rationale Heuristics を併用した PLRH というフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-22T09:14:35Z)
RAG-Star: Enhancing Deliberative Reasoning with Retrieval Augmented Verification and Refinement [85.08223786819532]
既存の大規模言語モデル(LLM)は、例外的な問題解決能力を示すが、複雑な推論タスクに苦労する可能性がある。検索情報を統合した新しいRAG手法である textbfRAG-Star を提案する。 Llama-3.1-8B-Instruct と GPT-4o を併用した実験により,RAG-Star は従来のRAG と推理法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2024-12-17T13:05:36Z)
Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文参考訳（メタデータ） (2024-11-18T16:15:17Z)
MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文参考訳（メタデータ） (2024-11-04T20:06:34Z)
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文参考訳（メタデータ） (2024-10-03T18:12:29Z)
Zero-Shot Multi-Hop Question Answering via Monte-Carlo Tree Search with Large Language Models [19.214387260667348]
本稿ではモンテカルロ木探索(MCTS)に基づくMZQA(Zero-shot Multi-hop Question Answering)を提案する。従来とは違って,通常はドメインの専門知識を必要とする手作りの少数ショットの例をサポートせずに,命令のみに依存するゼロショットプロンプト手法を提案する。また,MZQA-BCは自己生成MCTS推論軌道を学習し,解析速度を10倍以上に向上させる。
論文参考訳（メタデータ） (2024-09-28T15:13:04Z)
Tree-of-Traversals: A Zero-Shot Reasoning Algorithm for Augmenting Black-box Language Models with Knowledge Graphs [72.89652710634051]
知識グラフ(KG)は、信頼性があり、構造化され、ドメイン固有であり、最新の外部知識を提供することで、Large Language Models(LLM)を補完する。そこで本研究では,ゼロショット推論アルゴリズムであるTree-of-Traversalsを導入する。
論文参考訳（メタデータ） (2024-07-31T06:01:24Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
Autonomous Tree-search Ability of Large Language Models [58.68735916408101]
大規模言語モデルは、高度なプロンプト技術で顕著な推論能力に優れています。近年の研究では、LLMがより困難な推論タスクを解くために受動的木探索を行えるように、検索ロジックを定義するために外部プログラムを活用することが提案されている。我々は,LLMの自律木探索能力という新しい概念を提案し,正しい解を求める探索軌跡を含む応答を自動生成する。
論文参考訳（メタデータ） (2023-10-14T14:14:38Z)
Alphazero-like Tree-Search can Guide Large Language Model Decoding and Training [37.79247073276239]
ToT(Tree-of-Thought)やRAP(Reasoning via Planning)といった最近の研究は、LLMの推論能力を強化することを目的としている。 LLMのためのAlphaZeroライクな木探索学習フレームワーク(TS-LLM)を提案する。学習価値関数を用いた木探索がLLM復号を導出する方法を示す。
論文参考訳（メタデータ） (2023-09-29T12:20:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。