論文の概要: Recursive Decomposition of Logical Thoughts: Framework for Superior Reasoning and Knowledge Propagation in Large Language Models
- arxiv url: http://arxiv.org/abs/2501.02026v1
- Date: Fri, 03 Jan 2025 02:55:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 16:36:50.598824
- Title: Recursive Decomposition of Logical Thoughts: Framework for Superior Reasoning and Knowledge Propagation in Large Language Models
- Title(参考訳): 論理的思考の再帰的分解:大規模言語モデルにおける上層推論と知識伝播のための枠組み
- Authors: Kaleem Ullah Qasim, Jiashu Zhang, Tariq Alsahfi, Ateeq Ur Rehman Butt,
- Abstract要約: RDoLTは大規模言語モデルの推論性能を大幅に向上させる新しいフレームワークである。
RDoLTは、(1)複雑な推論タスクを進歩的複雑性のサブタスクに分解すること、(2)最も有望な推論思考を特定するための高度な選択とスコアリング機構を使用すること、(3)人間の学習を模倣する知識伝達モジュールを統合すること、の3つの主要なイノベーションに基づいて構築されている。
提案手法は,GSM8K,SVAMP,MultiArithm,LastLetterConcatenation,Gaokao2023 Mathなど,複数のベンチマークで評価された。
- 参考スコア(独自算出の注目度): 1.4956870931936515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enhancing the reasoning capabilities of Large Language Models remains a critical challenge in artificial intelligence. We introduce RDoLT, Recursive Decomposition of Logical Thought prompting, a novel framework that significantly boosts LLM reasoning performance. RDoLT is built on three key innovations: (1) recursively breaking down complex reasoning tasks into sub-tasks of progressive complexity; (2) employing an advanced selection and scoring mechanism to identify the most promising reasoning thoughts; and (3) integrating a knowledge propagation module that mimics human learning by keeping track of strong and weak thoughts for information propagation. Our approach was evaluated across multiple benchmarks, including GSM8K, SVAMP, MultiArith, LastLetterConcatenation, and Gaokao2023 Math. The results demonstrate that RDoLT consistently outperforms existing state-of-the-art techniques, achieving a 90.98 percent accuracy on GSM8K with ChatGPT-4, surpassing state-of-the-art techniques by 6.28 percent. Similar improvements were observed on other benchmarks, with accuracy gains ranging from 5.5 percent to 6.75 percent. These findings highlight RDoLT's potential to advance prompt engineering, offering a more effective and generalizable approach to complex reasoning tasks.
- Abstract(参考訳): 大規模言語モデルの推論能力の強化は、人工知能における重要な課題である。
LLM推論性能を大幅に向上させる新しいフレームワークであるRDoLT(Recursive Decomposition of Logical Thought prompting)を紹介する。
RDoLTは,(1)複雑な推論タスクを進化的複雑性のサブタスクに再帰的に分解すること,(2)最も有望な推論思考を識別するための高度な選択とスコアリング機構を活用すること,(3)情報伝達のための強い思考と弱い思考の追跡を維持することで,人間の学習を模倣する知識伝播モジュールを統合すること,の3つの重要なイノベーションに基づいて構築されている。
提案手法は,GSM8K,SVAMP,MultiArith,LastLetterConcatenation,Gaokao2023 Mathなど,複数のベンチマークで評価された。
その結果、RDoLTは既存の最先端技術を一貫して上回り、90.98パーセントの精度でGSM8KをChatGPT-4で達成し、最先端技術を6.28パーセント上回った。
他のベンチマークでも同様の改善が見られ、精度は5.5%から6.75パーセントまで向上した。
これらの知見は、RDoLTが迅速なエンジニアリングを推進し、複雑な推論タスクに対してより効果的で一般化可能なアプローチを提供する可能性を示している。
関連論文リスト
- Phi-4-reasoning Technical Report [42.508165017775]
Phi-4-reasoningは14ビリオンのパラメータ推論モデルであり、複雑な推論タスクにおいて高い性能を実現する。
我々はPhi-4-reasoning-plusを開発した。
どちらのモデルもDeepSeek-R1-Distill-Llama-70Bモデルのような大きなオープンウェイトモデルよりも優れており、完全なDeepSeek-R1モデルのパフォーマンスレベルに近づいている。
論文 参考訳(メタデータ) (2025-04-30T05:05:09Z) - CoT-RAG: Integrating Chain of Thought and Retrieval-Augmented Generation to Enhance Reasoning in Large Language Models [14.784841713647682]
CoT-RAGは3つの重要な設計を持つ新しい推論フレームワークである。
知識グラフ駆動のCoT生成、学習可能な知識ケース対応RAG、擬似プログラム実行などを備えている。
最先端の方法と比較すると、CoT-RAGは4.0%から23.0%の精度で大幅に改善されている。
論文 参考訳(メタデータ) (2025-04-18T07:55:09Z) - VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning [55.97950660659051]
GPT-o1とDeepSeek-R1は、明示的な反射によって難しい問題を解く大きな可能性を示した。
本稿では、強化学習を用いて、視覚言語モデルの遅い思考能力を向上させることを目的とする。
我々のモデルであるVL-Rethinkerは、MathVista、MathVerse、MathVisionの最先端スコアを80.3%、61.8%、43.9%に向上させています。
論文 参考訳(メタデータ) (2025-04-10T17:41:56Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - DeLTa: A Decoding Strategy based on Logit Trajectory Prediction Improves Factuality and Reasoning Ability [3.2561294196141835]
本稿では,事実的精度と推論的推論を両立させる新しい復号法を提案する。
提案手法は,トランスフォーマーの下位層から上位層へのロジットの軌跡を解析することにより,次の確率を調節する。
TruthfulQAの実験では、DeLTaはベースラインよりも4.9%改善されている。
論文 参考訳(メタデータ) (2025-03-04T07:07:17Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [90.86370957353911]
CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。
CoRは異なる推論パラダイムを用いて複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。
実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
論文 参考訳(メタデータ) (2025-01-19T16:53:26Z) - LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs [103.0226977561914]
大規模言語モデルにおけるステップバイステップの視覚的推論を促進するための包括的フレームワークを提案する。
マルチステップ推論タスクの評価に特化して設計された視覚推論ベンチマークを導入する。
第二に,個々のステップの粒度で視覚的推論品質を評価する新しい指標を提案する。
第3に、マルチステップのカリキュラム学習アプローチを用いて学習したLlamaV-o1という新しいマルチモーダル視覚推論モデルを提案する。
論文 参考訳(メタデータ) (2025-01-10T18:59:51Z) - Inference Scaling vs Reasoning: An Empirical Analysis of Compute-Optimal LLM Problem-Solving [0.0]
大規模言語モデル(LLM)の最近の進歩は、精度と推論能力の最大化に重点を置いている。
本稿では,2つの対照的なアプローチの統合を解析することにより,推論の強化と計算効率の相乗効果について検討する。
論文 参考訳(メタデータ) (2024-12-20T08:42:45Z) - The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。
本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Think Beyond Size: Adaptive Prompting for More Effective Reasoning [0.0]
本稿では,動的かつ反復的なフレームワークであるAdaptive Promptingを紹介する。
その結果、Adaptive Promptingは、算術的推論(GSM8K、MultiArithm)、論理的推論、コモンセンスタスクなど、様々な推論ベンチマークのパフォーマンスを著しく向上させることを示した。
提案手法は,計算効率を維持しつつ,GPT-4などの大規模モデルと競合する性能を実現する。
論文 参考訳(メタデータ) (2024-10-10T17:14:36Z) - Teaching-Inspired Integrated Prompting Framework: A Novel Approach for Enhancing Reasoning in Large Language Models [8.370453544530914]
大規模言語モデル(LLM)は、様々な領域で優れたパフォーマンスを示すが、算術的推論タスクに苦戦している。
近年の研究では,推理能力向上における迅速な設計手法の有効性が示されている。
本稿では,教師が指導する指導過程をエミュレートした,新しい効果的な指導インスパイアされた統合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T16:02:36Z) - Strategic Chain-of-Thought: Guiding Accurate Reasoning in LLMs through Strategy Elicitation [16.350747493026432]
CoT(Chain-of-Thought)パラダイムは,大規模言語モデル(LLM)の推論能力向上のための重要なアプローチとして登場した。
中間的推論ステップを生成する前に戦略的知識を統合することでLCM性能を向上するための textbfStrategic Chain-of-Thought (SCoT) を提案する。
SCoTは1つのプロンプトの中で2段階のアプローチを採用し、まず効果的な問題解決戦略を導き、次に高品質なCoTパスと最終回答の生成を導くのに使用される。
論文 参考訳(メタデータ) (2024-09-05T06:28:05Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - Evidence to Generate (E2G): A Single-agent Two-step Prompting for
Context Grounded and Retrieval Augmented Reasoning [3.117335706912261]
Evidence to Generate(E2G)は、新しいシングルエージェント、2ステッププロンプトフレームワークである。
証明されていない推論の主張の代わりに、E2Gは文脈で明確に言及された思考列にのみ焦点をあてる。
ツールは、幅広い知識集約的な推論と生成タスクにおいて、顕著な結果を達成する。
論文 参考訳(メタデータ) (2024-01-11T09:49:15Z) - Resprompt: Residual Connection Prompting Advances Multi-Step Reasoning in Large Language Models [73.4425450752596]
チェーン・オブ・シント(CoT)のプロンプトによって、大きな言語モデル(LLM)の推論の可能性は著しく解放された。
しかし、標準的なCoTは複数の推論ステップを必要とする問題では効果が低い。
LLMにおける多段階推論を推し進める新しいプロンプト戦略であるRESPROMPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T08:56:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。