論文の概要: Generating Chain-of-Thoughts with a Pairwise-Comparison Approach to Searching for the Most Promising Intermediate Thought
- arxiv url: http://arxiv.org/abs/2402.06918v2
- Date: Wed, 26 Jun 2024 05:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 19:04:48.435558
- Title: Generating Chain-of-Thoughts with a Pairwise-Comparison Approach to Searching for the Most Promising Intermediate Thought
- Title(参考訳): Pairwise-Comparison Approach to Searching for the Most Promising Intermediate Thought (特集:「思考の連鎖」)
- Authors: Zhen-Yu Zhang, Siwei Han, Huaxiu Yao, Gang Niu, Masashi Sugiyama,
- Abstract要約: CoT法(Chain-of- Thoughts)は、大規模言語モデルにステップバイステップの推論を誘導し、単純から複雑への問題解決を可能にする手法である。
大規模言語モデル (LLMs) による評価は、一般的にうるさく、信頼できないものであり、将来有望な中間的思考を選択する際の生成過程を誤解させる可能性がある。
本稿では,Vapnikの原理を動機として,ポイントワイドスコアではなくペアワイズ比較評価を用いて,有望な中間思考を探索する。
- 参考スコア(独自算出の注目度): 70.30423016640749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To improve the ability of the large language model (LLMs) to tackle complex reasoning problems, chain-of-thoughts (CoT) methods were proposed to guide LLMs to reason step-by-step, enabling problem solving from simple to complex. State-of-the-art methods for generating such a chain involve interactive collaboration, where the learner generates candidate intermediate thoughts, evaluated by the LLM, guiding the generation of subsequent thoughts. However, a widespread yet understudied problem is that the evaluation from the LLM is typically noisy and unreliable, potentially misleading the generation process in selecting promising intermediate thoughts. In this paper, motivated by Vapnik's principle, we use pairwise-comparison evaluation instead of point-wise scoring to search for promising intermediate thoughts with the noisy feedback from the LLM. In each round, we randomly pair intermediate thoughts and directly prompt the LLM to select the more promising one from each pair, allowing us to identify the most promising thoughts through an iterative process. To further alleviate the noise in the comparison, we incorporate techniques from ensemble learning and dueling bandits, proposing two variants of the algorithm. Experiments on three real-world tasks demonstrate the effectiveness of our proposed algorithm and verify the rationale of the pairwise comparison mechanism.
- Abstract(参考訳): 複雑な推論問題に対処する大規模言語モデル(LLM)の能力を改善するため,LLMをステップバイステップで推論するためのチェーン・オブ・シント法(CoT)が提案され,単純から複雑への問題解決が可能となった。
このようなチェーンを生成するための最先端の手法には、学習者がLLMによって評価された中間的思考を候補として生成し、その後の思考を導く対話的なコラボレーションが含まれる。
しかしながら、広く検討されている問題は、LLMの評価が一般的にうるさく、信頼できないことであり、将来的な中間的思考を選択する際に生成過程を誤解させる可能性があることである。
本稿では,Vapnikの原理を背景として,LLMからのノイズフィードバックを伴い,期待できる中間思想を探索するために,ポイントワイズスコアの代わりにペアワイズ比較評価を用いる。
各ラウンドにおいて、中間思考をランダムにペアリングし、LSMに直接、各ペアからより有望な思考を選択するように促し、反復的なプロセスを通じて最も有望な思考を特定できるようにします。
比較においてさらにノイズを軽減するため、アンサンブル学習とデュエルバンディットの技法を取り入れ、アルゴリズムの2つの変種を提案する。
実世界の3つのタスクの実験は,提案アルゴリズムの有効性を実証し,ペア比較機構の理論的根拠を検証する。
関連論文リスト
- Hypothesis-Driven Theory-of-Mind Reasoning for Large Language Models [76.6028674686018]
エージェントの精神状態を追跡するための推論時間推論アルゴリズムである思考トレースを導入する。
提案アルゴリズムは,ベイズ理論をモデルとした。
本研究は,様々なベンチマークにおける思考トレーシングを評価し,大幅な性能向上を実証した。
論文 参考訳(メタデータ) (2025-02-17T15:08:50Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - MyGO Multiplex CoT: A Method for Self-Reflection in Large Language Models via Double Chain of Thought Thinking [4.234183823376613]
我々は、LLMが推論しながら自己レビューの形式をシミュレートできる手法であるMultiformx CoT(Chain of Thought)を紹介する。
多重 CoT は反復的推論の力を活用し、モデルが最初の思考の連鎖を生成し、その後批判し、この推論を洗練させる。
論文 参考訳(メタデータ) (2025-01-20T12:54:57Z) - Hint Marginalization for Improved Reasoning in Large Language Models [24.67507932821155]
大規模言語モデル(LLM)の推論能力を高める新しいアルゴリズムフレームワークであるMarginalizationを提案する。
提案手法は,モンテカルロ近似を基礎となる回答分布の反復的サンプリング戦略とみなすことができる。
算術的推論のためのいくつかのベンチマークデータセットに対する経験的評価は、提案手法の優位性を示している。
論文 参考訳(メタデータ) (2024-12-17T19:45:53Z) - Closer Look at Efficient Inference Methods: A Survey of Speculative Decoding [1.3479499607624648]
投機的復号化は、ドラフトと検証という2段階のフレームワークを導入することでボトルネックに対処する。
より小さく効率的なモデルが予備のドラフトを生成し、より大きくより洗練されたモデルによって洗練される。
本稿では、投機的復号法を包括的に調査し、それらをドラフト中心およびモデル中心のアプローチに分類する。
論文 参考訳(メタデータ) (2024-11-20T09:46:30Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language Model Reasoning [0.0]
反復的人間のエンゲージメントは、大規模言語モデル(LLM)の高度な言語処理能力を活用するための一般的かつ効果的な手段である。
思考の反復(IoT)フレームワークを提案する。
静的アプローチや半静的アプローチとは異なり、IoTは進化するコンテキストに基づいて推論パスを動的に適応する。
論文 参考訳(メタデータ) (2024-09-19T09:44:17Z) - Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。
我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文 参考訳(メタデータ) (2024-02-06T03:41:12Z) - R$^3$ Prompting: Review, Rephrase and Resolve for Chain-of-Thought
Reasoning in Large Language Models under Noisy Context [12.475979274233458]
雑音条件下でのChain-of-Thought(CoT)推論のための新しいプロンプト手法,すなわちR$3$プロンプトを提案する。
実験の結果,R$3$は,雑音条件下での5つの推論タスクにおいて,既存のCoTプロンプトよりも有意に優れていた。
論文 参考訳(メタデータ) (2023-10-25T10:34:02Z) - Plan, Verify and Switch: Integrated Reasoning with Diverse X-of-Thoughts [65.15322403136238]
我々は,多種多様な推論の思考をLCMに促すことにより,総合的な問題解決フレームワーク XoT を提案する。
各質問に対して、XoTは常に最も適切なメソッドを選択して始まり、各メソッドを反復的に実行する。
各イテレーション内で、XoTは生成された回答の有効性を積極的にチェックし、外部エグゼクタからのフィードバックを取り入れます。
論文 参考訳(メタデータ) (2023-10-23T07:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。