論文の概要: Rethinking Chain-of-Thought from the Perspective of Self-Training
- arxiv url: http://arxiv.org/abs/2412.10827v1
- Date: Sat, 14 Dec 2024 13:12:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:02:10.696438
- Title: Rethinking Chain-of-Thought from the Perspective of Self-Training
- Title(参考訳): 自己学習の観点からの思考の連鎖の再考
- Authors: Zongqian Wu, Baoduo Xu, Ruochen Cui, Mengmeng Zhan, Xiaofeng Zhu, Lei Feng,
- Abstract要約: 大型言語モデル(LLM)における潜在能力を活性化するための効果的なアプローチとして、チェーン・オブ・シント推論(CoT)が登場している。
本稿では,CoTと自己学習の関係について考察し,自己学習による洞察がCoTのパフォーマンスに与える影響を実証する。
- 参考スコア(独自算出の注目度): 10.722453877596998
- License:
- Abstract: Chain-of-thought (CoT) reasoning has emerged as an effective approach for activating latent capabilities in large language models (LLMs). We observe that CoT shares significant similarities with self-training in terms of their learning processes. Motivated by these parallels, this paper explores the underlying relationship between CoT and self-training, demonstrating how insights from self-training can enhance CoT performance. Specifically, our study first reveals that CoT, like self-training, follows the principle of semantic entropy minimization. Leveraging this insight, we propose a novel CoT framework that incorporates two key components: (i) a task-specific prompt module designed to guide LLMs in generating high-quality initial reasoning processes, and (ii) an adaptive reasoning iteration module for progressively refining the reasoning process.
- Abstract(参考訳): CoT推論は、大規模言語モデル(LLM)における潜在能力を活性化するための効果的なアプローチとして現れている。
我々はCoTが学習過程において自己学習と大きな類似点を持っていることを観察した。
本稿では,CoTと自己学習の関係を考察し,自己学習から得られる洞察がCoTのパフォーマンスをいかに向上させるかを示す。
特に,本研究では,CoTが自己学習と同様,意味エントロピー最小化の原則に従うことを最初に明らかにした。
この洞察を生かして、2つの重要なコンポーネントを組み込んだ新しいCoTフレームワークを提案する。
i) 高品質な初期推論プロセスの生成においてLLMを誘導するタスク特化プロンプトモジュール
(ii) 段階的に推論プロセスを洗練するための適応推論反復モジュール。
関連論文リスト
- Stepwise Perplexity-Guided Refinement for Efficient Chain-of-Thought Reasoning in Large Language Models [56.37421741507468]
CoT推論は大規模言語モデル(LLM)の性能を大幅に向上させた。
本稿では,その重要性の尺度としてパープレキシティを用いた批判的推論ステップの同定手法を提案する。
論文 参考訳(メタデータ) (2025-02-18T20:04:51Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge [78.28188747489769]
そこで我々は,Thinking-LLM-as-a-Judgeの優先最適化アルゴリズムであるEvalPlannerを提案する。
自己学習ループでは、EvalPlannerは、合成的に構築された評価計画と実行よりも反復的に最適化する。
提案手法はRewardBenchにおける生成報酬モデルのための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2025-01-30T02:21:59Z) - Evolutionary Pre-Prompt Optimization for Mathematical Reasoning [45.461506988071534]
本稿では,実効的なチェーン・オブ・フォー・プレプロンプトの設計におけるサンプル選択の最適化について検討する。
アルゴリズムの選択は、通常、進化的計算のような比較に基づく手法に有利であり、有効性と実現可能性を大幅に向上させることを示している。
論文 参考訳(メタデータ) (2024-12-05T16:12:06Z) - PRefLexOR: Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning and Agentic Thinking [0.0]
PRefLexORは、好みの最適化と強化学習の概念を組み合わせることで、モデルを自己学習可能にする。
本研究は, 生体材料科学の応用に焦点をあて, 様々なケーススタディでその手法を実証する。
論文 参考訳(メタデータ) (2024-10-16T08:46:26Z) - Unlocking the Capabilities of Thought: A Reasoning Boundary Framework to Quantify and Optimize Chain-of-Thought [61.588465852846646]
大型言語モデル(LLM)の性能向上のための有望なアプローチとして、Chain-of-Thought(CoT)推論が登場した。
本稿では,これらの課題に対処するための新しい推論境界フレームワーク(RBF)を提案する。
論文 参考訳(メタデータ) (2024-10-08T05:26:28Z) - COT: A Generative Approach for Hate Speech Counter-Narratives via Contrastive Optimal Transport [25.73474734479759]
本研究では, コントラッシブ・最適輸送に基づく新しい枠組みを提案する。
ターゲットインタラクションの維持と、反ナラティブの生成における多様化の促進という課題を効果的に解決する。
提案手法は,複数の側面から評価された現在の手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-06-18T06:24:26Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。