論文の概要: Towards Stepwise Domain Knowledge-Driven Reasoning Optimization and Reflection Improvement
- arxiv url: http://arxiv.org/abs/2504.09058v1
- Date: Sat, 12 Apr 2025 03:25:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-24 16:07:39.478488
- Title: Towards Stepwise Domain Knowledge-Driven Reasoning Optimization and Reflection Improvement
- Title(参考訳): ステップワイズドメインの知識駆動推論最適化とリフレクション改善に向けて
- Authors: Chengyuan Liu, Shihang Wang, Lizhi Qing, Kaisong Song, Junjie Cao, Jun Lin, Ji Zhang, Ang Li, Kun Kuang, Fei Wu,
- Abstract要約: CoTs(Chain of Thoughts)の段階的な監督は、モンテカルロ木探索(MCTS)の助けを借りて、コーディングや数学などの論理的推論タスクを強化する。
本稿では,段階的知識駆動推論最適化(Stepwise Domain Knowledge-Driven Reasoning Optimization)の枠組みを提案する。
また、より優れた視点から推論思考について自己回帰を反復的に学習する、反射経路に対する優先最適化についても紹介する。
- 参考スコア(独自算出の注目度): 37.691153935770814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, stepwise supervision on Chain of Thoughts (CoTs) presents an enhancement on the logical reasoning tasks such as coding and math, with the help of Monte Carlo Tree Search (MCTS). However, its contribution to tasks requiring domain-specific expertise and knowledge remains unexplored. Motivated by the interest, we identify several potential challenges of vanilla MCTS within this context, and propose the framework of Stepwise Domain Knowledge-Driven Reasoning Optimization, employing the MCTS algorithm to develop step-level supervision for problems that require essential comprehension, reasoning, and specialized knowledge. Additionally, we also introduce the Preference Optimization towards Reflection Paths, which iteratively learns self-reflection on the reasoning thoughts from better perspectives. We have conducted extensive experiments to evaluate the advantage of the methodologies. Empirical results demonstrate the effectiveness on various legal-domain problems. We also report a diverse set of valuable findings, hoping to encourage the enthusiasm to the research of domain-specific LLMs and MCTS.
- Abstract(参考訳): 近年、モンテカルロ木探索(MCTS)の助けを借りて、思考の連鎖(CoTs)の段階的な監督が、コーディングや数学などの論理的推論タスクの強化を図っている。
しかし、ドメイン固有の専門知識と知識を必要とするタスクへの貢献は、まだ明らかになっていない。
本研究の目的は,この文脈におけるバニラMCTSの潜在的な課題を特定し,ステップワイドドメイン知識駆動推論最適化の枠組みを提案し,MCTSアルゴリズムを用いて,本質的な理解,推論,専門知識を必要とする問題に対する段階レベルの監視を開発することである。
さらに、より優れた視点から推論思考を反復的に学習する、反射経路に対する優先度最適化についても紹介する。
我々は,方法論の利点を評価するために,広範囲な実験を行った。
実証的な結果は、様々な法領域問題に対する効果を示す。
我々はまた、ドメイン固有のLLMとMCTSの研究への熱意の高まりを願って、さまざまな貴重な発見を報告した。
関連論文リスト
- A Survey of Scaling in Large Language Model Reasoning [62.92861523305361]
大規模言語モデル(LLM)推論におけるスケーリングの総合的な検討について述べる。
我々は、多段階推論と論理的整合性を改善する推論ステップにおけるスケーリングを分析する。
我々は、反復モデルの改善による最適化に焦点を当て、トレーニング可能な推論のスケーリングについて論じる。
論文 参考訳(メタデータ) (2025-04-02T23:51:27Z) - A Survey on Feedback-based Multi-step Reasoning for Large Language Models on Mathematics [9.681821524089761]
我々は,LLMの多段階数学推論を強化するために,ステップレベルのフィードバックと結果レベルの戦略を調査する。
LLMのスケーリングにおいて,多段階の推論が重要な要素となるため,さらなる研究の促進と理解を深めるための基盤の確立が望まれる。
論文 参考訳(メタデータ) (2025-02-20T07:31:00Z) - CoAT: Chain-of-Associated-Thoughts Framework for Enhancing Large Language Models Reasoning [0.8192907805418583]
Chain-of-Associated-Thoughts (CoAT)フレームワークは、モンテカルロ木探索(MCTS)アルゴリズムと「連想記憶」と呼ばれる新しいキー情報を統合する動的メカニズムの革新的な相乗効果を導入している。
MCTSの構造的探索能力と連想記憶の適応学習能力を組み合わせることで、CoATはLLM検索空間を大幅に拡張し、多様な推論経路を探索し、その知識ベースをリアルタイムで動的に更新することを可能にする。
これらの実験により、我々のフレームワークは、精度、コヒーレンス、多様性に関する従来の推論プロセスより優れていることが示された。
論文 参考訳(メタデータ) (2025-02-04T15:10:33Z) - Evolution of Thought: Diverse and High-Quality Reasoning via Multi-Objective Optimization [14.346638764967357]
MLLM(Multi-modal large language model)は、複雑な推論タスクに適用されることが多い。
思考の進化 (EoT) は, 質の高い推論経路と多様な推論経路の両方を育むために提案される。
我々はEoTが他の競争ベースラインよりも優れた推論性能と効率を達成することを示す。
論文 参考訳(メタデータ) (2024-11-24T14:59:30Z) - Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。
本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (2024-11-18T16:15:17Z) - Unlocking the Capabilities of Thought: A Reasoning Boundary Framework to Quantify and Optimize Chain-of-Thought [61.588465852846646]
大型言語モデル(LLM)の性能向上のための有望なアプローチとして、Chain-of-Thought(CoT)推論が登場した。
本稿では,これらの課題に対処するための新しい推論境界フレームワーク(RBF)を提案する。
論文 参考訳(メタデータ) (2024-10-08T05:26:28Z) - BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
我々は,Bloomの分類にインスパイアされた新しいプロンプト技術であるBloomWiseを導入し,Large Language Models(LLMs)の性能を向上させる。
より洗練された認知スキルを身につける必要性に関する決定は、LLMによる自己評価に基づいている。
4つの一般的な算数推論データセットの広範な実験において,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-05T09:27:52Z) - Re-TASK: Revisiting LLM Tasks from Capability, Skill, and Knowledge Perspectives [54.14429346914995]
CoT (Chain-of-Thought) は複雑な問題を解決する重要な方法となっている。
大規模言語モデル(LLM)はドメイン固有のタスクを正確に分解するのに苦労することが多い。
本稿では,LLMタスクを能力,スキル,知識の観点から再検討する理論モデルであるRe-TASKフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-08-13T13:58:23Z) - Leveraging LLM Reasoning Enhances Personalized Recommender Systems [25.765908301183188]
本稿では,レコメンデーションシステム (RecSys) におけるLarge Language Models (LLMs) の推論の適用が,大きな課題であることを示す。
本研究では、RecSysの推論をよりよく理解し、タスク品質がどのように改善されるかを示すために、いくつかの側面について検討する。
論文 参考訳(メタデータ) (2024-07-22T20:18:50Z) - LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。
大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。
戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。