Fugu-MT 論文翻訳(概要): Self-Reflection Outcome is Sensitive to Prompt Construction

論文の概要: Self-Reflection Outcome is Sensitive to Prompt Construction

arxiv url: http://arxiv.org/abs/2406.10400v1
Date: Fri, 14 Jun 2024 20:07:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 00:42:24.879230
Title: Self-Reflection Outcome is Sensitive to Prompt Construction
Title（参考訳）: 自己回帰の結果は、建設を加速させるのに敏感である
Authors: Fengyuan Liu, Nouar AlDahoul, Gregory Eady, Yasir Zaki, Bedoor AlShebli, Talal Rahwan,
Abstract要約: 自己回帰の結果は,素早い発話に敏感であることを示す。誤りの特定に保守的なプロンプトを構築するための異なる方法を提案する。本研究は,自己回帰作業における迅速な工学の重要性を強調した。
参考スコア（独自算出の注目度）: 1.3899663412994456
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) demonstrate impressive zero-shot and few-shot reasoning capabilities. Some propose that such capabilities can be improved through self-reflection, i.e., letting LLMs reflect on their own output to identify and correct mistakes in the initial responses. However, despite some evidence showing the benefits of self-reflection, recent studies offer mixed results. Here, we aim to reconcile these conflicting findings by first demonstrating that the outcome of self-reflection is sensitive to prompt wording; e.g., LLMs are more likely to conclude that it has made a mistake when explicitly prompted to find mistakes. Consequently, idiosyncrasies in reflection prompts may lead LLMs to change correct responses unnecessarily. We show that most prompts used in the self-reflection literature are prone to this bias. We then propose different ways of constructing prompts that are conservative in identifying mistakes and show that self-reflection using such prompts results in higher accuracy. Our findings highlight the importance of prompt engineering in self-reflection tasks. We release our code at https://github.com/Michael98Liu/mixture-of-prompts.
Abstract（参考訳）: 大きな言語モデル(LLM)は、印象的なゼロショットと少数ショット推論機能を示している。そのような機能は自己回帰によって改善できる、という意見もある。すなわち、LLMは初期応答の誤りを識別し修正するために、自身の出力を反映させる。しかし、自己回帰の利点を示す証拠はいくつかあるが、近年の研究は様々な結果を出している。そこで本研究では,まず,自己回帰の結果が迅速な語調に敏感であることを示すことによって,これらの矛盾する知見を整理することを目的としている。したがって、リフレクションプロンプトにおける慣用性は、LLMが不必要に正しい応答を変更することにつながる可能性がある。自己回帰文学で使われるほとんどのプロンプトがこのバイアスの傾向にあることを示す。そこで我々は,誤りの特定に保守的なプロンプトの構築方法を提案し,そのようなプロンプトを用いた自己回帰がより高い精度をもたらすことを示す。本研究は,自己回帰作業における迅速な工学の重要性を強調した。コードをhttps://github.com/Michael98Liu/mixture-of-promptsでリリースします。

関連論文リスト

Efficient Reasoning Through Suppression of Self-Affirmation Reflections in Large Reasoning Models [29.615519143908998]
自己確認反射は、事前の内容を肯定する冗長な反射ステップであり、しばしば既に正しい推論ステップの後に起こる。自己確認反射の抑制は複数のモデル間で精度を低下させることなく出力長を減少させることを示す。また、そのような反射を明示的に抑制することで、現行の列車方式も改善する。
論文参考訳（メタデータ） (2025-06-14T05:30:09Z)
SelfReflect: Can LLMs Communicate Their Internal Answer Distribution? [21.270758668026023]
我々は,要約と回答上の分布の間の情報理論的距離であるSelfReflectメトリックを開発した。我々は,SelfReflectが,要約文字列と LLM の内部分布の回答に対する忠実度を細かな尺度で表していることを示す。
論文参考訳（メタデータ） (2025-05-26T17:59:53Z)
Intent-Aware Self-Correction for Mitigating Social Biases in Large Language Models [38.1620443730172]
フィードバックに基づく自己補正は大規模言語モデル(LLM)の出力品質を改善する本研究では,自己補正によるLLMのバイアスを効果的に軽減するために,意図を明確にすることが重要であることを示す。
論文参考訳（メタデータ） (2025-03-08T02:20:43Z)
Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models [36.119299938503936]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて有望な性能を示す。幻覚に敏感であり、視覚内容や指示と不一致な出力を生成する。本稿では,理科学習を視覚的指導調律に統合した反射的指導調律を提案する。
論文参考訳（メタデータ） (2024-07-16T06:32:45Z)
Large Language Models have Intrinsic Self-Correction Ability [16.831123666582755]
大規模言語モデルは、性能劣化を引き起こす幻覚に悩まされる。 LLMのパフォーマンスを改善するための有望な解決策の1つは、LLMに世代ごとの回答の修正を求めることである。内在的な自己補正は、外部知識を活用できないため、有望な方向と考えられる。
論文参考訳（メタデータ） (2024-06-21T22:29:40Z)
A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。 LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文参考訳（メタデータ） (2024-05-28T22:33:02Z)
"I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文参考訳（メタデータ） (2024-05-01T16:43:55Z)
When Hindsight is Not 20/20: Testing Limits on Reflective Thinking in Large Language Models [15.781930031346105]
自己回帰はTrthfulQAのパフォーマンスを高めるが、HotpotQAの結果に悪影響を及ぼす。自己回帰は、モデルが最初は正しくない可能性が低く、全体的な疑問の難しさが高い場合に最も有益であることが分かる。そこで本研究では,自己回帰の実施時期を判断するためのガイドラインを提案する。
論文参考訳（メタデータ） (2024-04-14T02:47:32Z)
Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models [84.94220787791389]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。 FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文参考訳（メタデータ） (2024-02-27T01:37:23Z)
Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文参考訳（メタデータ） (2024-02-18T03:10:39Z)
Self-Debiasing Large Language Models: Zero-Shot Recognition and Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文参考訳（メタデータ） (2024-02-03T01:40:11Z)
Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives [45.87069217634753]
研究によると、外部からのフィードバックがなければ、Large Language Modelの本質的なリフレクションは不安定である。我々の調査によると、重要なボトルネックは自己評価されたフィードバックの品質である。要求に合わせて様々な解決の観点を適応的に探求し、相違点を対比し、これらの相違点を再検討し、相違点を排除するために使用できるチェックリストにまとめます。
論文参考訳（メタデータ） (2024-01-04T00:32:33Z)
Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。生成したコンテンツの正確性と適切性に関する懸念が続いている。現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文参考訳（メタデータ） (2023-10-03T04:56:12Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。また,LLMにも同様な自己検証能力があることを示す。
論文参考訳（メタデータ） (2022-12-19T15:51:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。