Fugu-MT 論文翻訳(概要): Recursive Chain-of-Feedback Prevents Performance Degradation from Redundant Prompting

論文の概要: Recursive Chain-of-Feedback Prevents Performance Degradation from Redundant Prompting

arxiv url: http://arxiv.org/abs/2402.02648v2
Date: Fri, 1 Mar 2024 10:46:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-04 13:50:24.276212
Title: Recursive Chain-of-Feedback Prevents Performance Degradation from Redundant Prompting
Title（参考訳）: Recursive Chain-of-Feedbackは冗長プロンプトの性能劣化を防ぐ
Authors: Jinwoo Ahn, Kyuseung Shin
Abstract要約: 本稿では,このような反復行動とその効果について,新しい設定,CoF(Chain-of-Feedback)を定義することによって検討する。これらの問題を緩和するために、新しい手法、Recursive Chain-of-Feedback (R-CoF)を提案する。
参考スコア（独自算出の注目度）: 0.4662017507844857
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) frequently struggle with complex reasoning tasks, failing to construct logically sound steps towards the solution. In response to this behavior, users often try prompting the LLMs repeatedly in hopes of reaching a better response. This paper studies such repetitive behavior and its effect by defining a novel setting, Chain-of-Feedback (CoF). The setting takes questions that require multi-step reasoning as an input. Upon response, we repetitively prompt meaningless feedback (e.g. 'make another attempt') requesting additional trials. Surprisingly, our preliminary results show that repeated meaningless feedback gradually decreases the quality of the responses, eventually leading to a larger deviation from the intended outcome. To alleviate these troubles, we propose a novel method, Recursive Chain-of-Feedback (R-CoF). Following the logic of recursion in computer science, R-CoF recursively revises the initially incorrect response by breaking down each incorrect reasoning step into smaller individual problems. Our preliminary results show that majority of questions that LLMs fail to respond correctly can be answered using R-CoF without any sample data outlining the logical process.
Abstract（参考訳）: 大規模言語モデル(llm)は、複雑な推論タスクにしばしば苦労し、ソリューションへの論理的に正しいステップの構築に失敗した。この動作に対応するために、ユーザはよくllmを何度も促して、よりよい応答を期待する。本稿では,このような反復行動とその効果について,新しいセッティングであるChain-of-Feedback(CoF)を定義して検討する。この設定は、入力として多段階推論を必要とする質問を取る。応答すると、繰り返し無意味なフィードバック(例えば「別の試み」)を促し、追加の試行を要求します。驚くべきことに,無意味なフィードバックを繰り返し繰り返すことで,反応の質が徐々に低下し,結果として意図した結果から大きく逸脱する結果が得られた。これらの問題を緩和するために,新しい手法であるRecursive Chain-of-Feedback (R-CoF)を提案する。コンピュータ科学における再帰の論理に従い、R-CoFは、各誤った推論ステップを小さな個々の問題に分解することで、初期誤った応答を再帰的に修正する。予備的な結果から,LLMが正しく応答できない質問の多くは,論理過程を概説するサンプルデータなしでR-CoFを用いて回答できることがわかった。

関連論文リスト

A Simple "Try Again" Can Elicit Multi-Turn LLM Reasoning [47.344750601893104]
マルチターン問題解決は、大規模な推論モデル(LRM)が彼らの推論を反映し、フィードバックから修正する上で非常に難しい。既存の強化学習(RL)手法は、検証可能な報酬で1ターンのパラダイム上で大きな推論モデルを訓練する。我々は,反復的問題解決において,最小限の単一ユーザフィードバックを利用する強化学習のためのUnary Feedback as Observation (UFO)を紹介した。
論文参考訳（メタデータ） (2025-07-18T18:07:38Z)
Feedback Friction: LLMs Struggle to Fully Incorporate External Feedback [20.985320124495566]
LLMは外部からのフィードバックを受けると応答を改善する能力を持っている。これらのモデルが外部からのフィードバックをいかに効果的かつ徹底的に組み込むことができるかは、まだ不明である。
論文参考訳（メタデータ） (2025-06-13T16:31:51Z)
TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文参考訳（メタデータ） (2025-05-27T06:30:48Z)
Done Is Better than Perfect: Unlocking Efficient Reasoning by Structured Multi-Turn Decomposition [11.858707687894757]
大共振モデル (LRM) は、最終解を導出する長大なチェーン・オブ・ソート (CoT) に対して批判される。本稿では,Multi-Turn Decomposition (MinD)を導入し,従来のCoTを明示的,構造化的,ターンワイドなインタラクションのシーケンスにデコードする。 MinDは、出力トークンの使用量と最初のトークンの時間(TTFT)の両方を最大70%削減することができる。
論文参考訳（メタデータ） (2025-05-26T10:18:57Z)
Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think [51.0691253204425]
我々は2つの質問に答えるために中間的推論ステップを解析する: 最終的な答えはモデルの最適結論を確実に表すか? 我々のアプローチは、推論トレースを言語的手がかりに基づくシーケンシャルなサブソートに分割することである。これらの解答を最も頻繁な解(モード)を選択して集約すると、元の完全トレースから得られる解のみに依存するよりも、はるかに高い精度が得られることが判明した。
論文参考訳（メタデータ） (2025-04-29T12:39:07Z)
Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
Toward Adaptive Reasoning in Large Language Models with Thought Rollback [33.714789952452094]
本稿では,Thought Rollback (TR) と呼ばれる新しい推論フレームワークを提案する。 TRにより、大規模言語モデル(LLM)は、幻覚下での問題解決に向けた効果的な推論を維持しつつ、思考構造を適応的に構築することができる」。
論文参考訳（メタデータ） (2024-12-27T16:02:34Z)
Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback [8.601283886845664]
人間のフィードバック(RLHF)からの強化学習は、大規模言語モデル(LLM)と人間の意図と価値を一致させる。その効果と人気にもかかわらず、RLHFは局所最適化に偏っている。本稿では,新しいテキストシーケンス・ツー・シーケンス(seq2seq)報酬モデリング手法を提案する。
論文参考訳（メタデータ） (2024-08-30T16:14:35Z)
FSM: A Finite State Machine Based Zero-Shot Prompting Paradigm for Multi-Hop Question Answering [26.398873686905063]
大きな言語モデル (LLM) とチェーン・オブ・シント (COT) のプロンプトは、単純な自然言語推論タスクにおいて印象的な能力を示している。本稿では,複雑なタスクに対するLLMの推論能力を高めるために,FSM(Finite State Machine)というプロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-03T10:01:01Z)
Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。このアプローチは、正しい答えが少数派である場合に失敗する。階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文参考訳（メタデータ） (2024-05-21T17:12:19Z)
Re-Ex: Revising after Explanation Reduces the Factual Errors in LLM Responses [9.956253757863145]
本稿では,大規模言語モデル(LLM)生成応答を後編集するRe-Exを提案する。 Re-Exは、事実的エラー説明ステップと呼ばれる新しい推論ステップを導入した。説明ステップに加えて、Re-Exは、応答修正プロセスに必要なトークン数と推論時間を短縮する新しいプロンプト技術も取り入れている。
論文参考訳（メタデータ） (2024-02-27T00:22:18Z)
Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。 RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文参考訳（メタデータ） (2023-11-07T18:43:34Z)
Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。 CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文参考訳（メタデータ） (2023-09-12T14:36:23Z)
RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。 RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-05-19T08:02:52Z)
Answering Questions by Meta-Reasoning over Multiple Chains of Thought [53.55653437903948]
MCR(Multi-Chain Reasoning)は,大規模言語モデルに対して,複数の思考連鎖に対するメタ推論を促す手法である。 MCRは、異なる推論連鎖を調べ、それら間で情報を混合し、説明を生成し、答えを予測する際に最も関係のある事実を選択する。
論文参考訳（メタデータ） (2023-04-25T17:27:37Z)
Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文参考訳（メタデータ） (2023-04-23T13:54:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。