Fugu-MT 論文翻訳(概要): When Hindsight is Not 20/20: Testing Limits on Reflective Thinking in Large Language Models

論文の概要: When Hindsight is Not 20/20: Testing Limits on Reflective Thinking in Large Language Models

arxiv url: http://arxiv.org/abs/2404.09129v1
Date: Sun, 14 Apr 2024 02:47:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-16 15:27:43.954779
Title: When Hindsight is Not 20/20: Testing Limits on Reflective Thinking in Large Language Models
Title（参考訳）: Hindsightが20/20未満のとき:大規模言語モデルにおけるリフレクティブ思考のテスト限界
Authors: Yanhong Li, Chenghao Yang, Allyson Ettinger,
Abstract要約: 自己回帰はTrthfulQAのパフォーマンスを高めるが、HotpotQAの結果に悪影響を及ぼす。自己回帰は、モデルが最初は正しくない可能性が低く、全体的な疑問の難しさが高い場合に最も有益であることが分かる。そこで本研究では,自己回帰の実施時期を判断するためのガイドラインを提案する。
参考スコア（独自算出の注目度）: 15.781930031346105
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent studies suggest that self-reflective prompting can significantly enhance the reasoning capabilities of Large Language Models (LLMs). However, the use of external feedback as a stop criterion raises doubts about the true extent of LLMs' ability to emulate human-like self-reflection. In this paper, we set out to clarify these capabilities under a more stringent evaluation setting in which we disallow any kind of external feedback. Our findings under this setting show a split: while self-reflection enhances performance in TruthfulQA, it adversely affects results in HotpotQA. We conduct follow-up analyses to clarify the contributing factors in these patterns, and find that the influence of self-reflection is impacted both by reliability of accuracy in models' initial responses, and by overall question difficulty: specifically, self-reflection shows the most benefit when models are less likely to be correct initially, and when overall question difficulty is higher. We also find that self-reflection reduces tendency toward majority voting. Based on our findings, we propose guidelines for decisions on when to implement self-reflection. We release the codebase for reproducing our experiments at https://github.com/yanhong-lbh/LLM-SelfReflection-Eval.
Abstract（参考訳）: 近年の研究では、Large Language Models (LLMs) の推論能力を大幅に向上させることが示唆されている。しかしながら、停止基準としての外部フィードバックの使用は、LLMが人間のような自己反射をエミュレートする能力の真の大きさに疑問を呈する。本稿では,外部からのフィードバックを許さないような,より厳密な評価条件下でこれらの機能を明らかにすることを試みた。自己回帰はTruthfulQAのパフォーマンスを高めるが,HotpotQAの結果に悪影響を及ぼす。これらのパターンに寄与する要因を明らかにするためにフォローアップ分析を行い、モデルの初期応答における精度の信頼性の信頼性と全体的な疑問の難しさの両方によって自己回帰の影響が影響されることを見出した。また、自己回帰は多数決の傾向を低下させる。そこで本研究では,自己回帰の実施時期を判断するためのガイドラインを提案する。実験を再現するためのコードベースをhttps://github.com/yanhong-lbh/LLM-SelfReflection-Evalでリリースしています。

関連論文リスト

Do LLM Evaluators Prefer Themselves for a Reason? [21.730128682888168]
大規模言語モデル (LLM) は、ベンチマーク、報酬モデリング、自己修正などのアプリケーションにおける自動評価手段として、ますます使われている。以前の作業では、LLMが自身の生成したレスポンスを優先する、潜在的な自己参照バイアスが強調されていた。自己推論は有害か、それとも、より有能なモデルからの客観的に優れたアウトプットを反映しているのか?
論文参考訳（メタデータ） (2025-04-04T18:09:23Z)
Intent-Aware Self-Correction for Mitigating Social Biases in Large Language Models [38.1620443730172]
フィードバックに基づく自己補正は大規模言語モデル(LLM)の出力品質を改善する本研究では,自己補正によるLLMのバイアスを効果的に軽減するために,意図を明確にすることが重要であることを示す。
論文参考訳（メタデータ） (2025-03-08T02:20:43Z)
Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文参考訳（メタデータ） (2024-11-25T17:11:54Z)
Self-Correction is More than Refinement: A Learning Framework for Visual and Language Reasoning Tasks [43.96835245022083]
モデルにアウトプットを洗練させる自己補正は、この問題に対する有望な解決策である。本研究では,視覚言語モデルの推論および微調整段階における自己補正能力について検討した。
論文参考訳（メタデータ） (2024-10-05T06:28:54Z)
Self-Reflection Outcome is Sensitive to Prompt Construction [1.3899663412994456]
自己回帰の結果は,素早い発話に敏感であることを示す。誤りの特定に保守的なプロンプトを構築するための異なる方法を提案する。本研究は,自己回帰作業における迅速な工学の重要性を強調した。
論文参考訳（メタデータ） (2024-06-14T20:07:11Z)
A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。 LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文参考訳（メタデータ） (2024-05-28T22:33:02Z)
Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文参考訳（メタデータ） (2024-04-26T03:41:28Z)
Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文参考訳（メタデータ） (2024-02-18T03:10:39Z)
On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks [17.329365493094542]
ゲーム・オブ・24(Game of 24)とグラフカラー化(Graph Coloring)とSTRIPSプランニング(STRIPS Planning)の3分野において,GPT-4の性能に関する実証的研究を行った。我々は,自己批判による顕著なパフォーマンス崩壊と,音外検証による顕著なパフォーマンス向上を観察した。
論文参考訳（メタデータ） (2024-02-12T23:11:01Z)
Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives [45.87069217634753]
研究によると、外部からのフィードバックがなければ、Large Language Modelの本質的なリフレクションは不安定である。我々の調査によると、重要なボトルネックは自己評価されたフィードバックの品質である。要求に合わせて様々な解決の観点を適応的に探求し、相違点を対比し、これらの相違点を再検討し、相違点を排除するために使用できるチェックリストにまとめます。
論文参考訳（メタデータ） (2024-01-04T00:32:33Z)
Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。生成したコンテンツの正確性と適切性に関する懸念が続いている。現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文参考訳（メタデータ） (2023-10-03T04:56:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。