論文の概要: Generating Chain-of-Thoughts with a Direct Pairwise-Comparison Approach
to Searching for the Most Promising Intermediate Thought
- arxiv url: http://arxiv.org/abs/2402.06918v1
- Date: Sat, 10 Feb 2024 09:51:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 18:45:02.766079
- Title: Generating Chain-of-Thoughts with a Direct Pairwise-Comparison Approach
to Searching for the Most Promising Intermediate Thought
- Title(参考訳): 最も有望な中間的思考を探索する直接対比較アプローチによる思考連鎖の生成
- Authors: Zhen-Yu Zhang, Siwei Han, Huaxiu Yao, Gang Niu, Masashi Sugiyama
- Abstract要約: 思考の連鎖(CoT)法は、大きな言語モデルにステップバイステップの推論を導くために提案された。
大規模言語モデル(LLM)による評価は一般的にノイズが多く、信頼性が低いため、生成プロセスの誤解を招く可能性がある。
本稿では,最も有望な思考を直接識別する比較に基づくCoT生成アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 75.42560889109559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To improve the ability of the large language model (LLMs) to handle complex
reasoning problems, chain-of-thoughts (CoT) methods were proposed to guide LLMs
to reason step-by-step, facilitating problem solving from simple to complex
tasks. State-of-the-art approaches for generating such a chain involve
interactive collaboration, where the learner generates candidate intermediate
thoughts, evaluated by the LLM, guiding the generation of subsequent thoughts.
However, a widespread yet understudied problem is that the evaluation from the
LLM is typically noisy and unreliable, potentially misleading the generation
process in selecting promising intermediate thoughts. In this paper, motivated
by Vapnik's principle, we propose a novel comparison-based CoT generation
algorithm that directly identifies the most promising thoughts with the noisy
feedback from the LLM. In each round, we randomly pair intermediate thoughts
and directly prompt the LLM to select the more promising one from each pair,
allowing us to identify the most promising thoughts through an iterative
process. To further model the noise in the comparison, we resort to the
techniques of ensemble and dueling bandits and propose two variants of the
proposed algorithm. Experiments on three real-world mathematical and reasoning
tasks demonstrate the effectiveness of our proposed algorithm and verify the
rationale of the direct pairwise comparison.
- Abstract(参考訳): 複雑な推論問題に対処する大規模言語モデル(LLM)の能力を改善するために,LLMをステップバイステップで推論するためのチェーン・オブ・思想(CoT)手法が提案された。
このような連鎖を生成するための最先端のアプローチは、対話的なコラボレーションであり、学習者は、llmによって評価され、次の思考の生成を導く候補中間思考を生成する。
しかし、広く研究されている問題は、llmの評価が通常、ノイズで信頼性が低く、有望な中間思考を選択する際に生成プロセスが誤解される可能性があることである。
本稿では,Vapnik の原理をベースとして,LLM からのノイズフィードバックによって最も有望な思考を直接識別する新しい比較ベース CoT 生成アルゴリズムを提案する。
各ラウンドにおいて、中間思考をランダムにペアリングし、LSMに直接、各ペアからより有望な思考を選択するように促し、反復的なプロセスを通じて最も有望な思考を識別できるようにする。
比較においてさらにノイズをモデル化するために,アンサンブルとデュエルバンディットの手法を活用し,提案アルゴリズムの2つの変種を提案する。
3つの実世界の数学的および推論タスクの実験は、提案アルゴリズムの有効性を示し、直接対比較の理論的根拠を検証する。
関連論文リスト
- Zero-Shot Chain-of-Thought Reasoning Guided by Evolutionary Algorithms
in Large Language Models [11.967815199202203]
大規模言語モデル(LLM)は、ゼロショット・チェーン・オブ・ソート(CoT)のプロンプトを適用することで、様々なタスクにまたがる顕著なパフォーマンスを示している。
既存のゼロショットCoTプロンプトメソッドは、すべてのタスクインスタンスに対して同じCoTプロンプトを使用するのが最適ではないかもしれない。
進化的アルゴリズムを利用してLLMの多様なプロンプトを動的に生成するゼロショットプロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-02-08T03:17:38Z) - Large Language Models as an Indirect Reasoner: Contrapositive and
Contradiction for Automated Reasoning [79.37150041259066]
本稿では, 事実推論や数学的証明といったIR課題に対処するために, 反陽性と矛盾の論理を用いた間接推論(IR)手法を提案する。
GPT-3.5-turbo や Gemini-pro などの一般的な LLM の実験結果から,我々のIR 法は事実推論の総合的精度を27.33%,数学的証明を31.43%向上させることを示した。
論文 参考訳(メタデータ) (2024-02-06T03:41:12Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z) - Plan, Verify and Switch: Integrated Reasoning with Diverse X-of-Thoughts [65.15322403136238]
我々は,多種多様な推論の思考をLCMに促すことにより,総合的な問題解決フレームワーク XoT を提案する。
各質問に対して、XoTは常に最も適切なメソッドを選択して始まり、各メソッドを反復的に実行する。
各イテレーション内で、XoTは生成された回答の有効性を積極的にチェックし、外部エグゼクタからのフィードバックを取り入れます。
論文 参考訳(メタデータ) (2023-10-23T07:02:20Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Empirical Study of Zero-Shot NER with ChatGPT [19.534329209433626]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて強力な能力を示した。
本研究はゼロショット情報抽出におけるLLM性能の探索に焦点をあてる。
記号的推論と算術的推論におけるLLMの顕著な推論能力に着想を得て, 代表的な推論手法をNERに適用する。
論文 参考訳(メタデータ) (2023-10-16T03:40:03Z) - DialCoT Meets PPO: Decomposing and Exploring Reasoning Paths in Smaller
Language Models [18.96271708412086]
CoT(Chain-of-Thought)プロンプトは、少なくとも1000億のパラメータを持つLLM(Large Language Models)の推論能力を高めるのに有効であることが証明されている。
本稿では,ダイアログ誘導型Chain-of-Thought(DialCoT)について紹介する。
論文 参考訳(メタデータ) (2023-10-08T08:52:13Z) - Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language
Models [18.302024623742533]
本稿では,アルゴリズム的推論経路を通じて大規模言語モデルを促進する新しい手法を提案する。
この結果から,LLMをアルゴリズムを用いて指導すると,アルゴリズム自体よりも性能が向上する可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-20T22:36:23Z) - Encouraging Divergent Thinking in Large Language Models through
Multi-Agent Debate [56.23037393834715]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。