論文の概要: Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives
- arxiv url: http://arxiv.org/abs/2401.02009v3
- Date: Thu, 6 Jun 2024 18:46:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 20:27:03.001459
- Title: Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives
- Title(参考訳): 自己コントラスト: 一貫性のない問題解決の観点からの反射性向上
- Authors: Wenqi Zhang, Yongliang Shen, Linjuan Wu, Qiuying Peng, Jun Wang, Yueting Zhuang, Weiming Lu,
- Abstract要約: 研究によると、外部からのフィードバックがなければ、Large Language Modelの本質的なリフレクションは不安定である。
我々の調査によると、重要なボトルネックは自己評価されたフィードバックの品質である。
要求に合わせて様々な解決の観点を適応的に探求し、相違点を対比し、これらの相違点を再検討し、相違点を排除するために使用できるチェックリストにまとめます。
- 参考スコア(独自算出の注目度): 45.87069217634753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The reflection capacity of Large Language Model (LLM) has garnered extensive attention. A post-hoc prompting strategy, e.g., reflexion and self-refine, refines LLM's response based on self-evaluated or external feedback. However, recent research indicates without external feedback, LLM's intrinsic reflection is unstable. Our investigation unveils that the key bottleneck is the quality of the self-evaluated feedback. We find LLMs often exhibit overconfidence or high randomness when self-evaluate, offering stubborn or inconsistent feedback, which causes poor reflection. To remedy this, we advocate Self-Contrast: It adaptively explores diverse solving perspectives tailored to the request, contrasts the differences, and summarizes these discrepancies into a checklist which could be used to re-examine and eliminate discrepancies. Our method endows LLM with diverse perspectives to alleviate stubborn biases. Moreover, their discrepancies indicate potential errors or inherent uncertainties that LLM often overlooks. Reflecting upon these can catalyze more accurate and stable reflection. Experiments conducted on a series of reasoning and translation tasks with different LLMs serve to underscore the effectiveness and generality of our strategy.
- Abstract(参考訳): LLM(Large Language Model)のリフレクション能力は注目されている。
ポストホック・プロンプト戦略(例えば、反射と自己精製)は、自己評価または外部からのフィードバックに基づいてLSMの反応を洗練させる。
しかし、最近の研究では外部からのフィードバックがないため、LLMの内在反射は不安定である。
我々の調査によると、重要なボトルネックは自己評価されたフィードバックの品質である。
LLMは自己評価時に過剰な自信や高いランダム性を示し、頑固なフィードバックや一貫性のないフィードバックを与え、反射を弱める。
これを改善するために、私たちはセルフコントラスト(Self-Contrast)を提唱する。 要求に合わせて様々な解決の観点を適応的に探求し、違いを対比し、これらの相違点を再検討し、相違点を排除するために使用できるチェックリストにまとめます。
本手法は, 頑健なバイアスを軽減するため, LLM を多種多様な視点で適用する。
さらに、それらの相違は、LLMがしばしば見落としている潜在的な誤りや固有の不確実性を示している。
これらの反射はより正確で安定した反射を触媒することができる。
様々なLSMを用いた一連の推論および翻訳タスクの実験は、我々の戦略の有効性と汎用性を明らかにするのに役立ちます。
関連論文リスト
- The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism [39.392450788666814]
大規模言語モデル(LLM)の現在の評価は、しばしば非決定論を見落としている。
greedyデコーディングは一般的に、最も評価されたタスクのサンプリング方法よりも優れています。
より小型のLPMはGPT-4-Turboのような大型のモデルと一致するか、超えることができる。
論文 参考訳(メタデータ) (2024-07-15T06:12:17Z) - Supporting Self-Reflection at Scale with Large Language Models: Insights from Randomized Field Experiments in Classrooms [7.550701021850185]
本研究では,大規模言語モデル (LLMs) が学生の反省会後リフレクションに役立てる可能性について検討する。
大学コンピュータサイエンス科でランダムフィールド実験を2回行った。
論文 参考訳(メタデータ) (2024-06-01T02:41:59Z) - When Hindsight is Not 20/20: Testing Limits on Reflective Thinking in Large Language Models [15.781930031346105]
自己回帰はTrthfulQAのパフォーマンスを高めるが、HotpotQAの結果に悪影響を及ぼす。
自己回帰は、モデルが最初は正しくない可能性が低く、全体的な疑問の難しさが高い場合に最も有益であることが分かる。
そこで本研究では,自己回帰の実施時期を判断するためのガイドラインを提案する。
論文 参考訳(メタデータ) (2024-04-14T02:47:32Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
複数の候補回答の信頼性を徹底的に比較し、LLM生成の不正確な回答における過剰信頼を軽減する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - Fact-and-Reflection (FaR) Improves Confidence Calibration of Large
Language Models [89.20169610517381]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - Mirror: A Multiple-perspective Self-Reflection Method for Knowledge-rich Reasoning [18.5717357875955]
大規模言語モデル(LLM)は、外部リソースにアクセスすることなく知識に富んだ問題に対処する。
知識豊富な推論のための多重パースペクティブ自己回帰法であるMirrorを提案する。
論文 参考訳(メタデータ) (2024-02-22T20:57:17Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.89346248535922]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。