論文の概要: MyGO Multiplex CoT: A Method for Self-Reflection in Large Language Models via Double Chain of Thought Thinking
- arxiv url: http://arxiv.org/abs/2501.13117v1
- Date: Mon, 20 Jan 2025 12:54:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:59:32.820316
- Title: MyGO Multiplex CoT: A Method for Self-Reflection in Large Language Models via Double Chain of Thought Thinking
- Title(参考訳): MyGO Multiplex CoT:思考の二重連鎖による大規模言語モデルの自己回帰手法
- Authors: Shihao Ji, Zihui Song, Fucheng Zhong, Jisen Jia, Zhaobo Wu, Zheyi Cao, Tianhao Xu,
- Abstract要約: 我々は、LLMが推論しながら自己レビューの形式をシミュレートできる手法であるMultiformx CoT(Chain of Thought)を紹介する。
多重 CoT は反復的推論の力を活用し、モデルが最初の思考の連鎖を生成し、その後批判し、この推論を洗練させる。
- 参考スコア(独自算出の注目度): 4.234183823376613
- License:
- Abstract: Recent advancements in large language models (LLMs) have demonstrated their impressive abilities in various reasoning and decision-making tasks. However, the quality and coherence of the reasoning process can still benefit from enhanced introspection and self-reflection. In this paper, we introduce Multiplex CoT (Chain of Thought), a method that enables LLMs to simulate a form of self-review while reasoning, by initiating double Chain of Thought (CoT) thinking. Multiplex CoT leverages the power of iterative reasoning, where the model generates an initial chain of thought and subsequently critiques and refines this reasoning with a second round of thought generation. This recursive approach allows for more coherent, logical, and robust answers, improving the overall decision-making process. We demonstrate how this method can be effectively implemented using simple prompt engineering in existing LLM architectures, achieving an effect similar to that of the Learning-Refinement Model (LRM) without the need for additional training. Additionally, we present a practical guide for implementing the method in Google Colab, enabling easy integration into real-world applications.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、様々な推論や意思決定タスクにおいて、その印象的な能力を示している。
しかし、推論プロセスの品質と一貫性は、イントロスペクションの強化と自己回帰の恩恵を受けることができる。
本稿では,思考の二重連鎖(CoT)を創出し,思考の自己レビューの形式をシミュレートする手法であるMultiformx CoT(Chain of Thought)を紹介する。
多重 CoT は反復的推論の力を活用し、モデルが最初の思考の連鎖を生成し、その後批判し、第2ラウンドの思考生成でこの推論を洗練させる。
この再帰的なアプローチは、より一貫性があり、論理的で、堅牢な回答を可能にし、全体的な意思決定プロセスを改善する。
既存のLLMアーキテクチャにおいて,この手法を簡単なプロンプト・エンジニアリングを用いて効果的に実装し,追加のトレーニングを必要とせず,Learning-Refinement Model(LRM)と同様の効果を発揮できることを示す。
さらに,本手法をGoogle Colabに実装するための実用的なガイドを提示し,実世界のアプリケーションへの統合を容易にする。
関連論文リスト
- PRefLexOR: Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning and Agentic Thinking [0.0]
PRefLexORは、好みの最適化と強化学習の概念を組み合わせることで、モデルを自己学習可能にする。
本研究は, 生体材料科学の応用に焦点をあて, 様々なケーススタディでその手法を実証する。
論文 参考訳(メタデータ) (2024-10-16T08:46:26Z) - Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language Model Reasoning [0.0]
反復的人間のエンゲージメントは、大規模言語モデル(LLM)の高度な言語処理能力を活用するための一般的かつ効果的な手段である。
思考の反復(IoT)フレームワークを提案する。
静的アプローチや半静的アプローチとは異なり、IoTは進化するコンテキストに基づいて推論パスを動的に適応する。
論文 参考訳(メタデータ) (2024-09-19T09:44:17Z) - Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。
実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文 参考訳(メタデータ) (2024-07-25T17:35:59Z) - Generating Chain-of-Thoughts with a Pairwise-Comparison Approach to Searching for the Most Promising Intermediate Thought [70.30423016640749]
CoT法(Chain-of- Thoughts)は、大規模言語モデルにステップバイステップの推論を誘導し、単純から複雑への問題解決を可能にする手法である。
大規模言語モデル (LLMs) による評価は、一般的にうるさく、信頼できないものであり、将来有望な中間的思考を選択する際の生成過程を誤解させる可能性がある。
本稿では,Vapnikの原理を動機として,ポイントワイドスコアではなくペアワイズ比較評価を用いて,有望な中間思考を探索する。
論文 参考訳(メタデータ) (2024-02-10T09:51:03Z) - Think Twice: Perspective-Taking Improves Large Language Models'
Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。
我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-16T22:49:27Z) - Plan, Verify and Switch: Integrated Reasoning with Diverse X-of-Thoughts [65.15322403136238]
我々は,多種多様な推論の思考をLCMに促すことにより,総合的な問題解決フレームワーク XoT を提案する。
各質問に対して、XoTは常に最も適切なメソッドを選択して始まり、各メソッドを反復的に実行する。
各イテレーション内で、XoTは生成された回答の有効性を積極的にチェックし、外部エグゼクタからのフィードバックを取り入れます。
論文 参考訳(メタデータ) (2023-10-23T07:02:20Z) - Why Can Large Language Models Generate Correct Chain-of-Thoughts? [10.888196404348093]
自然言語生成に適した2階層階層型グラフィカルモデルを提案する。
我々は、LLM生成した思考の連鎖の可能性を測る魅力的な幾何学的収束率を確立する。
論文 参考訳(メタデータ) (2023-10-20T15:09:46Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z) - Self-Polish: Enhance Reasoning in Large Language Models via Problem Refinement [50.62461749446111]
Self-Polish(SP)は、与えられた問題を徐々に洗練し、より理解しやすく解けるように誘導することによって、モデルの推論を促進する新しい方法である。
SPは、CoTのような答え/推論サイドの他のすべてのプロンプトメソッドであり、最先端の技術とのシームレスな統合を可能にし、さらなる改善を可能にします。
論文 参考訳(メタデータ) (2023-05-23T19:58:30Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。