論文の概要: Chain-of-Feedback: Mitigating the Effects of Inconsistency in Responses
- arxiv url: http://arxiv.org/abs/2402.02648v1
- Date: Mon, 5 Feb 2024 00:44:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 18:39:51.573935
- Title: Chain-of-Feedback: Mitigating the Effects of Inconsistency in Responses
- Title(参考訳): Chain-of-Feedback: 応答における不整合の影響の緩和
- Authors: Jinwoo Ahn
- Abstract要約: 私たちは、Chain-of-Feedback(CoF)がLarge Language Modelsをトリガーして、実際の回答からさらに逸脱させる方法を示します。
本稿では,フィードバックの帰納的連鎖(Recursive Chain of Feedback, R-CoF)を提案する。
- 参考スコア(独自算出の注目度): 0.4662017507844857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) frequently suffer from knowledge-intensive
questions, often being inconsistent by providing different outputs despite
given the same input. The response quality worsens when the user expresses a
firm opposing stance which causes the LLMs to adjust its response despite the
correct initial one. These behaviors decrease the reliability and validity of
the responses provided by these models. In this paper, we attempt to 1) raise
awareness of the inherent risks that follow from overly relying on AI agents
like ChatGPT by showing how Chain-of-Feedback (CoF) triggers LLMs to deviate
more from the actual answer and 2) suggest a novel prompting method, Recursive
Chain of Feedback (R-CoF), that we are conducting further study. The CoF system
takes in an open-ended multi-step question. Then, we repetitively provide
meaningless feedback requesting another attempt. Our preliminary experiments
show that such feedback only decreases the quality of the response. On the
other hand, to mitigate the effects of the aforementioned inconsistencies, we
present a novel method of recursively revising the initial incorrect reasoning
provided by the LLM by repetitively breaking down each incorrect step into
smaller individual problems.
- Abstract(参考訳): 大きな言語モデル(LLM)はしばしば知識集約的な質問に悩まされ、同じ入力を与えられたにもかかわらず異なる出力を提供することで矛盾することが多い。
応答品質は、LLMが正しい初期にもかかわらず応答を調整する原因となる強固な反対姿勢をユーザが表すと悪化する。
これらの行動は、これらのモデルによって提供される応答の信頼性と妥当性を低下させる。
本稿では,我々が試みる
1)cof(chain-of-feedback)がllmを実際の回答から逸脱させる様子を示し、chatgptのようなaiエージェントに過度に頼りすぎている固有のリスクに対する認識を高める。
2) フィードバックの帰納的連鎖 (Recursive Chain of Feedback, R-CoF) という新たなプロンプト手法を提案する。
CoFシステムは、オープンエンドのマルチステップ問題に対処する。
そして、また別の試みを要求する無意味なフィードバックを繰り返し提供します。
予備実験では,フィードバックは応答の質を低下させるのみであることが示された。
一方, 上記の不整合の影響を軽減するため, 各不整合を個別に繰り返し分解することで, LLMが提供する初期不整合推論を再帰的に修正する手法を提案する。
関連論文リスト
- Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback [8.601283886845664]
人間のフィードバック(RLHF)からの強化学習は、大規模言語モデル(LLM)と人間の意図と価値を一致させる。
その効果と人気にもかかわらず、RLHFは局所最適化に偏っている。
本稿では,新しいテキストシーケンス・ツー・シーケンス(seq2seq)報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T16:14:35Z) - FSM: A Finite State Machine Based Zero-Shot Prompting Paradigm for Multi-Hop Question Answering [26.398873686905063]
大きな言語モデル (LLM) とチェーン・オブ・シント (COT) のプロンプトは、単純な自然言語推論タスクにおいて印象的な能力を示している。
本稿では,複雑なタスクに対するLLMの推論能力を高めるために,FSM(Finite State Machine)というプロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T10:01:01Z) - Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。
このアプローチは、正しい答えが少数派である場合に失敗する。
階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文 参考訳(メタデータ) (2024-05-21T17:12:19Z) - Re-Ex: Revising after Explanation Reduces the Factual Errors in LLM Responses [9.956253757863145]
本稿では,大規模言語モデル(LLM)生成応答を後編集するRe-Exを提案する。
Re-Exは、事実的エラー説明ステップと呼ばれる新しい推論ステップを導入した。
説明ステップに加えて、Re-Exは、応答修正プロセスに必要なトークン数と推論時間を短縮する新しいプロンプト技術も取り入れている。
論文 参考訳(メタデータ) (2024-02-27T00:22:18Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z) - RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by
Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。
RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。
手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-19T08:02:52Z) - Answering Questions by Meta-Reasoning over Multiple Chains of Thought [53.55653437903948]
MCR(Multi-Chain Reasoning)は,大規模言語モデルに対して,複数の思考連鎖に対するメタ推論を促す手法である。
MCRは、異なる推論連鎖を調べ、それら間で情報を混合し、説明を生成し、答えを予測する際に最も関係のある事実を選択する。
論文 参考訳(メタデータ) (2023-04-25T17:27:37Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。