論文の概要: MyGO Multiplex CoT: A Method for Self-Reflection in Large Language Models via Double Chain of Thought Thinking
- arxiv url: http://arxiv.org/abs/2501.13117v1
- Date: Mon, 20 Jan 2025 12:54:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:59:32.820316
- Title: MyGO Multiplex CoT: A Method for Self-Reflection in Large Language Models via Double Chain of Thought Thinking
- Title(参考訳): MyGO Multiplex CoT:思考の二重連鎖による大規模言語モデルの自己回帰手法
- Authors: Shihao Ji, Zihui Song, Fucheng Zhong, Jisen Jia, Zhaobo Wu, Zheyi Cao, Tianhao Xu,
- Abstract要約: 我々は、LLMが推論しながら自己レビューの形式をシミュレートできる手法であるMultiformx CoT(Chain of Thought)を紹介する。
多重 CoT は反復的推論の力を活用し、モデルが最初の思考の連鎖を生成し、その後批判し、この推論を洗練させる。
- 参考スコア(独自算出の注目度): 4.234183823376613
- License:
- Abstract: Recent advancements in large language models (LLMs) have demonstrated their impressive abilities in various reasoning and decision-making tasks. However, the quality and coherence of the reasoning process can still benefit from enhanced introspection and self-reflection. In this paper, we introduce Multiplex CoT (Chain of Thought), a method that enables LLMs to simulate a form of self-review while reasoning, by initiating double Chain of Thought (CoT) thinking. Multiplex CoT leverages the power of iterative reasoning, where the model generates an initial chain of thought and subsequently critiques and refines this reasoning with a second round of thought generation. This recursive approach allows for more coherent, logical, and robust answers, improving the overall decision-making process. We demonstrate how this method can be effectively implemented using simple prompt engineering in existing LLM architectures, achieving an effect similar to that of the Learning-Refinement Model (LRM) without the need for additional training. Additionally, we present a practical guide for implementing the method in Google Colab, enabling easy integration into real-world applications.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、様々な推論や意思決定タスクにおいて、その印象的な能力を示している。
しかし、推論プロセスの品質と一貫性は、イントロスペクションの強化と自己回帰の恩恵を受けることができる。
本稿では,思考の二重連鎖(CoT)を創出し,思考の自己レビューの形式をシミュレートする手法であるMultiformx CoT(Chain of Thought)を紹介する。
多重 CoT は反復的推論の力を活用し、モデルが最初の思考の連鎖を生成し、その後批判し、第2ラウンドの思考生成でこの推論を洗練させる。
この再帰的なアプローチは、より一貫性があり、論理的で、堅牢な回答を可能にし、全体的な意思決定プロセスを改善する。
既存のLLMアーキテクチャにおいて,この手法を簡単なプロンプト・エンジニアリングを用いて効果的に実装し,追加のトレーニングを必要とせず,Learning-Refinement Model(LRM)と同様の効果を発揮できることを示す。
さらに,本手法をGoogle Colabに実装するための実用的なガイドを提示し,実世界のアプリケーションへの統合を容易にする。
関連論文リスト
- A Tutorial on LLM Reasoning: Relevant Methods behind ChatGPT o1 [6.527607790666018]
OpenAI o1は、推論中に推論ステップを直接統合するために強化学習を適用することで、モデルの推論能力が大幅に向上することを示した。
本稿では、推論問題を包括的に定式化し、モデルベースとモデルフリーの両方のアプローチを用いて、この緩やかな思考フレームワークをより良くサポートする。
論文 参考訳(メタデータ) (2025-02-15T17:52:11Z) - Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models [42.70951894754312]
遅い思考機構を大きな言語モデルに統合することは、Level 2 AGI Reasonersにとって有望な方法である。
トレーニングと推論の両方において,LLMにバックトラック機能を持たせる自己追跡機構を提案する。
このメカニズムは推論能力を高めるだけでなく、スロー思考のプロセスを自己改善を通じて高速思考に変換することで効率も向上する。
論文 参考訳(メタデータ) (2025-02-06T08:52:43Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - Generating Chain-of-Thoughts with a Pairwise-Comparison Approach to Searching for the Most Promising Intermediate Thought [70.30423016640749]
CoT法(Chain-of- Thoughts)は、大規模言語モデルにステップバイステップの推論を誘導し、単純から複雑への問題解決を可能にする手法である。
大規模言語モデル (LLMs) による評価は、一般的にうるさく、信頼できないものであり、将来有望な中間的思考を選択する際の生成過程を誤解させる可能性がある。
本稿では,Vapnikの原理を動機として,ポイントワイドスコアではなくペアワイズ比較評価を用いて,有望な中間思考を探索する。
論文 参考訳(メタデータ) (2024-02-10T09:51:03Z) - Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。
我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文 参考訳(メタデータ) (2024-02-06T03:41:12Z) - Plan, Verify and Switch: Integrated Reasoning with Diverse X-of-Thoughts [65.15322403136238]
我々は,多種多様な推論の思考をLCMに促すことにより,総合的な問題解決フレームワーク XoT を提案する。
各質問に対して、XoTは常に最も適切なメソッドを選択して始まり、各メソッドを反復的に実行する。
各イテレーション内で、XoTは生成された回答の有効性を積極的にチェックし、外部エグゼクタからのフィードバックを取り入れます。
論文 参考訳(メタデータ) (2023-10-23T07:02:20Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。