論文の概要: Recursive Chain-of-Feedback Prevents Performance Degradation from
Redundant Prompting
- arxiv url: http://arxiv.org/abs/2402.02648v2
- Date: Fri, 1 Mar 2024 10:46:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-04 13:50:24.276212
- Title: Recursive Chain-of-Feedback Prevents Performance Degradation from
Redundant Prompting
- Title(参考訳): Recursive Chain-of-Feedbackは冗長プロンプトの性能劣化を防ぐ
- Authors: Jinwoo Ahn, Kyuseung Shin
- Abstract要約: 本稿では,このような反復行動とその効果について,新しい設定,CoF(Chain-of-Feedback)を定義することによって検討する。
これらの問題を緩和するために、新しい手法、Recursive Chain-of-Feedback (R-CoF)を提案する。
- 参考スコア(独自算出の注目度): 0.4662017507844857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) frequently struggle with complex reasoning
tasks, failing to construct logically sound steps towards the solution. In
response to this behavior, users often try prompting the LLMs repeatedly in
hopes of reaching a better response. This paper studies such repetitive
behavior and its effect by defining a novel setting, Chain-of-Feedback (CoF).
The setting takes questions that require multi-step reasoning as an input. Upon
response, we repetitively prompt meaningless feedback (e.g. 'make another
attempt') requesting additional trials. Surprisingly, our preliminary results
show that repeated meaningless feedback gradually decreases the quality of the
responses, eventually leading to a larger deviation from the intended outcome.
To alleviate these troubles, we propose a novel method, Recursive
Chain-of-Feedback (R-CoF). Following the logic of recursion in computer
science, R-CoF recursively revises the initially incorrect response by breaking
down each incorrect reasoning step into smaller individual problems. Our
preliminary results show that majority of questions that LLMs fail to respond
correctly can be answered using R-CoF without any sample data outlining the
logical process.
- Abstract(参考訳): 大規模言語モデル(llm)は、複雑な推論タスクにしばしば苦労し、ソリューションへの論理的に正しいステップの構築に失敗した。
この動作に対応するために、ユーザはよくllmを何度も促して、よりよい応答を期待する。
本稿では,このような反復行動とその効果について,新しいセッティングであるChain-of-Feedback(CoF)を定義して検討する。
この設定は、入力として多段階推論を必要とする質問を取る。
応答すると、繰り返し無意味なフィードバック(例えば「別の試み」)を促し、追加の試行を要求します。
驚くべきことに,無意味なフィードバックを繰り返し繰り返すことで,反応の質が徐々に低下し,結果として意図した結果から大きく逸脱する結果が得られた。
これらの問題を緩和するために,新しい手法であるRecursive Chain-of-Feedback (R-CoF)を提案する。
コンピュータ科学における再帰の論理に従い、R-CoFは、各誤った推論ステップを小さな個々の問題に分解することで、初期誤った応答を再帰的に修正する。
予備的な結果から,LLMが正しく応答できない質問の多くは,論理過程を概説するサンプルデータなしでR-CoFを用いて回答できることがわかった。
関連論文リスト
- Toward Adaptive Reasoning in Large Language Models with Thought Rollback [33.714789952452094]
本稿では,Thought Rollback (TR) と呼ばれる新しい推論フレームワークを提案する。
TRにより、大規模言語モデル(LLM)は、幻覚下での問題解決に向けた効果的な推論を維持しつつ、思考構造を適応的に構築することができる」。
論文 参考訳(メタデータ) (2024-12-27T16:02:34Z) - Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback [8.601283886845664]
人間のフィードバック(RLHF)からの強化学習は、大規模言語モデル(LLM)と人間の意図と価値を一致させる。
その効果と人気にもかかわらず、RLHFは局所最適化に偏っている。
本稿では,新しいテキストシーケンス・ツー・シーケンス(seq2seq)報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T16:14:35Z) - FSM: A Finite State Machine Based Zero-Shot Prompting Paradigm for Multi-Hop Question Answering [26.398873686905063]
大きな言語モデル (LLM) とチェーン・オブ・シント (COT) のプロンプトは、単純な自然言語推論タスクにおいて印象的な能力を示している。
本稿では,複雑なタスクに対するLLMの推論能力を高めるために,FSM(Finite State Machine)というプロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T10:01:01Z) - Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。
このアプローチは、正しい答えが少数派である場合に失敗する。
階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文 参考訳(メタデータ) (2024-05-21T17:12:19Z) - Re-Ex: Revising after Explanation Reduces the Factual Errors in LLM Responses [9.956253757863145]
本稿では,大規模言語モデル(LLM)生成応答を後編集するRe-Exを提案する。
Re-Exは、事実的エラー説明ステップと呼ばれる新しい推論ステップを導入した。
説明ステップに加えて、Re-Exは、応答修正プロセスに必要なトークン数と推論時間を短縮する新しいプロンプト技術も取り入れている。
論文 参考訳(メタデータ) (2024-02-27T00:22:18Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z) - RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by
Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。
RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。
手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-19T08:02:52Z) - Answering Questions by Meta-Reasoning over Multiple Chains of Thought [53.55653437903948]
MCR(Multi-Chain Reasoning)は,大規模言語モデルに対して,複数の思考連鎖に対するメタ推論を促す手法である。
MCRは、異なる推論連鎖を調べ、それら間で情報を混合し、説明を生成し、答えを予測する際に最も関係のある事実を選択する。
論文 参考訳(メタデータ) (2023-04-25T17:27:37Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。