Fugu-MT 論文翻訳(概要): Enhancing Zero-shot Chain of Thought Prompting via Uncertainty-Guided Strategy Selection

論文の概要: Enhancing Zero-shot Chain of Thought Prompting via Uncertainty-Guided Strategy Selection

arxiv url: http://arxiv.org/abs/2412.00353v1
Date: Sat, 30 Nov 2024 04:22:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:21.824889
Title: Enhancing Zero-shot Chain of Thought Prompting via Uncertainty-Guided Strategy Selection
Title（参考訳）: 不確実性誘導戦略選択による思考プロンプトのゼロショット連鎖の促進
Authors: Shanu Kumar, Saish Mendke, Karody Lubna Abdul Rahman, Santosh Kurasa, Parag Agrawal, Sandipan Dandapat,
Abstract要約: 本稿では,ゼロショット不確実性に基づく選択法(ZEUS)を提案する。 ZEUSは有用な質問と非効果的な質問の区別において高い感度を提供し、より正確で信頼性の高い選択を保証する。我々の評価は、ZEUSが既存のCoT戦略を4つの挑戦的推論ベンチマークで一貫して上回っていることを示している。
参考スコア（独自算出の注目度）: 10.49840493806499
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Chain-of-thought (CoT) prompting has significantly enhanced the capability of large language models (LLMs) by structuring their reasoning processes. However, existing methods face critical limitations: handcrafted demonstrations require extensive human expertise, while trigger phrases are prone to inaccuracies. In this paper, we propose the Zero-shot Uncertainty-based Selection (ZEUS) method, a novel approach that improves CoT prompting by utilizing uncertainty estimates to select effective demonstrations without needing access to model parameters. Unlike traditional methods, ZEUS offers high sensitivity in distinguishing between helpful and ineffective questions, ensuring more precise and reliable selection. Our extensive evaluation shows that ZEUS consistently outperforms existing CoT strategies across four challenging reasoning benchmarks, demonstrating its robustness and scalability.
Abstract（参考訳）: CoT(Chain-of- Thought)のプロンプトにより、大きな言語モデル(LLM)の能力は大幅に向上した。しかし、既存の方法には限界があり、手作りのデモンストレーションは人間の専門知識を必要とするが、トリガーフレーズは不正確である傾向がある。本稿では, モデルパラメータへのアクセスを必要とせず, 効果的な実演を選択するために, 不確実性推定を利用してCoTの高速化を図るZero-shot Uncertainty-based Selection (ZEUS) 手法を提案する。従来の方法とは異なり、ZEUSは有用な質問と非効果的な質問の区別に高い感度を提供し、より正確で信頼性の高い選択を保証する。我々の広範な評価は、ZEUSが既存のCoT戦略を4つの挑戦的推論ベンチマークで一貫して上回っており、その堅牢性とスケーラビリティを実証していることを示している。

関連論文リスト

Query-Level Uncertainty in Large Language Models [13.195074492564332]
我々は,レイヤやトークン間の自己評価を活用する,emphInternal Confidenceと呼ばれる新しい,トレーニング不要な手法を導入する。事実的QAと数学的推論の両タスクに関する実証的な結果は、我々の内的信頼度がいくつかの基準線を上回ることを示す。提案手法は,効率のよいRAGとモデルカスケードに利用でき,性能を維持しながら推論コストを低減できる。
論文参考訳（メタデータ） (2025-06-11T12:39:48Z)
Token Constraint Decoding Improves Robustness on Question Answering for Large Language Models [4.078176555898098]
我々は,Token Constraint Decoding (TCD)を導入し,評価する。この単純で効果的な推論時間アルゴリズムは、ノイズのある設定で堅牢性を高めるためにトークンレベルの予測をアライメントする。本研究は, 実世界の不完全条件下での推論安定性向上のための, 実用的, モデルに依存しないアプローチとして, TCDを確立した。
論文参考訳（メタデータ） (2025-06-11T05:33:56Z)
Dancing with Critiques: Enhancing LLM Reasoning with Stepwise Natural Language Self-Critique [66.94905631175209]
我々は、段階的に自然言語の自己批判(PANEL)を行う新しい推論時間スケーリング手法を提案する。ステップレベルの探索プロセスのガイドとして、自己生成の自然言語批判をフィードバックとして採用している。このアプローチは、タスク固有の検証と関連するトレーニングオーバーヘッドの必要性を回避します。
論文参考訳（メタデータ） (2025-03-21T17:59:55Z)
Uncertainty Quantification for LLMs through Minimum Bayes Risk: Bridging Confidence and Consistency [66.96286531087549]
大規模言語モデル(LLM)のための不確実性定量化(UQ)手法は、様々なアプローチを含んでいる。本稿では,モデル信頼度と出力整合性を統合する新しい手法を提案する。我々は,質問応答,抽象要約,機械翻訳など,様々なタスクに対するアプローチを評価する。
論文参考訳（メタデータ） (2025-02-07T14:30:12Z)
AdvAnchor: Enhancing Diffusion Model Unlearning with Adversarial Anchors [61.007590285263376]
セキュリティ上の懸念から、研究者たちは微調整によって不適切な概念を学ばざるを得なくなった。最近の微調整手法は、望ましくない概念を排除し、他の概念を保存することの間のかなりの性能のトレードオフを示す。本稿では,貿易問題を軽減するために,敵対的アンカーを生成する新しいアプローチであるAdvAnchorを提案する。
論文参考訳（メタデータ） (2024-12-28T04:44:07Z)
Self-Harmonized Chain of Thought [8.540320749424172]
CoT(Chain-of- Thought)プロンプトは、中間ステップを通じて複雑な推論を行うための大きな言語モデルの能力を示している。多様な解経路を一貫した効果的な推論パターンに統一する新しい手法ECHOを提案する。
論文参考訳（メタデータ） (2024-09-06T06:57:04Z)
Reasoning Beyond Bias: A Study on Counterfactual Prompting and Chain of Thought Reasoning [0.0]
回答の選択肢によって学習された規則性の違いは、モデルの好みを予測し、人間のテストテイク戦略を反映していることが示される。我々は2つの新しい方法を紹介した: 思考の連鎖(CoT)と素素数CoT(Agnostically Primed CoT)による反実的プロンプト(APriCoT)である。以上の結果から,予測バイアスの緩和には「システム-2」のようなプロセスが必要であることが示唆された。
論文参考訳（メタデータ） (2024-08-16T10:34:50Z)
DePrompt: Desensitization and Evaluation of Personal Identifiable Information in Large Language Model Prompts [11.883785681042593]
DePromptは、プロンプトのための脱感作保護および有効性評価フレームワークである。我々は、コンテキスト属性を統合し、プライバシタイプを定義し、高精度なPIIエンティティ識別を実現する。私たちのフレームワークはプロンプトに適応可能で、テキストのユーザビリティに依存したシナリオに拡張できます。
論文参考訳（メタデータ） (2024-08-16T02:38:25Z)
Rigorous Probabilistic Guarantees for Robust Counterfactual Explanations [80.86128012438834]
モデルシフトに対する反ファクトの堅牢性を計算することはNP完全であることを示す。本稿では,頑健性の厳密な推定を高い保証で実現する新しい確率論的手法を提案する。
論文参考訳（メタデータ） (2024-07-10T09:13:11Z)
Inverse-RLignment: Large Language Model Alignment from Demonstrations through Inverse Reinforcement Learning [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。 AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-24T15:13:53Z)
Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model [86.9619638550683]
視覚言語基礎モデルは、画像とテキストのペアデータに拡張性があるため、多数の下流タスクで顕著な成功を収めている。しかし、これらのモデルは、決定ショートカットの結果、きめ細かな画像分類などの下流タスクに適用した場合に重大な制限を呈する」。
論文参考訳（メタデータ） (2024-03-01T09:01:53Z)
Token-Level Adversarial Prompt Detection Based on Perplexity Measures and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-20T03:17:21Z)
Self-Polish: Enhance Reasoning in Large Language Models via Problem Refinement [50.62461749446111]
Self-Polish(SP)は、与えられた問題を徐々に洗練し、より理解しやすく解けるように誘導することによって、モデルの推論を促進する新しい方法である。 SPは、CoTのような答え/推論サイドの他のすべてのプロンプトメソッドであり、最先端の技術とのシームレスな統合を可能にし、さらなる改善を可能にします。
論文参考訳（メタデータ） (2023-05-23T19:58:30Z)
FRSUM: Towards Faithful Abstractive Summarization via Enhancing Factual Robustness [56.263482420177915]
我々は,既存のシステムの忠実さを,事実的堅牢性という新たな視点から研究する。本研究では,新たなトレーニング戦略,すなわちFRSUMを提案し,そのモデルに対して,暗黙の対角的サンプルと暗黙の対向的摂動の両方を防御するように指導する。
論文参考訳（メタデータ） (2022-11-01T06:09:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。