論文の概要: Self-Critique-Guided Curiosity Refinement: Enhancing Honesty and Helpfulness in Large Language Models via In-Context Learning
- arxiv url: http://arxiv.org/abs/2506.16064v1
- Date: Thu, 19 Jun 2025 06:42:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.96441
- Title: Self-Critique-Guided Curiosity Refinement: Enhancing Honesty and Helpfulness in Large Language Models via In-Context Learning
- Title(参考訳): 自己批判型好奇心の強化--インテクスト学習による大規模言語モデルにおける正直さとヘルプフルネスの強化
- Authors: Duc Hieu Ho, Chenglin Fan,
- Abstract要約: 本稿では,広く使用されている10種類の大言語モデルのベンチマーク評価を行う。
新たなプロンプト戦略,自己批判による好奇心の洗練を促すことを提案する。
提案手法は、2つの軽量なインコンテキストステップを組み込むことで好奇心駆動型プロンプト戦略を拡張する。
- 参考スコア(独自算出の注目度): 3.6042771517920724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated robust capabilities across various natural language tasks. However, producing outputs that are consistently honest and helpful remains an open challenge. To overcome this challenge, this paper tackles the problem through two complementary directions. It conducts a comprehensive benchmark evaluation of ten widely used large language models, including both proprietary and open-weight models from OpenAI, Meta, and Google. In parallel, it proposes a novel prompting strategy, self-critique-guided curiosity refinement prompting. The key idea behind this strategy is enabling models to self-critique and refine their responses without additional training. The proposed method extends the curiosity-driven prompting strategy by incorporating two lightweight in-context steps including self-critique step and refinement step. The experiment results on the HONESET dataset evaluated using the framework $\mathrm{H}^2$ (honesty and helpfulness), which was executed with GPT-4o as a judge of honesty and helpfulness, show consistent improvements across all models. The approach reduces the number of poor-quality responses, increases high-quality responses, and achieves relative gains in $\mathrm{H}^2$ scores ranging from 1.4% to 4.3% compared to curiosity-driven prompting across evaluated models. These results highlight the effectiveness of structured self-refinement as a scalable and training-free strategy to improve the trustworthiness of LLMs outputs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語タスクにまたがる堅牢な機能を示している。
しかし、一貫して誠実で有益なアウトプットを生成することは、依然としてオープンな課題である。
この課題を克服するために,本論文は2つの相補的な方向を通してこの問題に取り組む。
OpenAI、Meta、Googleのプロプライエタリモデルとオープンウェイトモデルの両方を含む、広く使用されている10の大規模言語モデルの包括的なベンチマーク評価を行います。
並行して、自己批判による好奇心の洗練を促進させる新しいプロンプト戦略を提案する。
この戦略の背景にある重要な考え方は、モデルが追加のトレーニングなしで自己批判し、応答を洗練できるようにすることだ。
提案手法は,自己批判ステップと改良ステップを含む2つの軽量なインコンテキストステップを組み込むことにより,好奇心駆動型プロンプト戦略を拡張した。
GPT-4oで実施したフレームワーク $\mathrm{H}^2$ (honesty and helpness) を用いて評価したHONESETデータセットに対する実験結果から,すべてのモデルで一貫した改善が得られた。
このアプローチは、品質の悪いレスポンスの数を減らすとともに、高品質なレスポンスを増やし、評価されたモデル間で好奇心が引き起こすプロンプトに比べて、$\mathrm{H}^2$のスコアが1.4%から4.3%の範囲で相対的に上昇する。
これらの結果は,LLM出力の信頼性を向上させるための,スケーラブルでトレーニングのない戦略として,構造化自己補充の有効性を浮き彫りにした。
関連論文リスト
- Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、効果的なポリシー最適化のための自然言語と数値フィードバックを統合している。
教師付き学習ベースとRLベースの微調整アプローチを一貫して上回る。
オンライン強化学習に専門家によるデモンストレーションを取り入れた、強力なベースラインを超えている。
論文 参考訳(メタデータ) (2025-06-03T17:39:02Z) - On the Adversarial Robustness of Instruction-Tuned Large Language Models for Code [4.286327408435937]
厳密なメトリクスと確立されたベンチマークを用いて、多様な入力課題が生成されたコードの機能と正確性に与える影響を評価する。
オープンソースモデルは入力摂動に対する感受性が増大し、機能的正しさは12%から34%にまで低下した。
対照的に、商用モデルは比較的高いレジリエンスを示し、性能劣化は3%から24%である。
論文 参考訳(メタデータ) (2024-11-29T07:00:47Z) - Improving Retrieval Augmented Language Model with Self-Reasoning [20.715106330314605]
本稿では,ALMの信頼性とトレーサビリティ向上を目的とした,新たな自己推論フレームワークを提案する。
このフレームワークは、関連性を認識したプロセス、エビデンスを認識した選択プロセス、軌跡解析プロセスの3つのプロセスで自己推論軌道を構築することを含む。
提案手法の優位性を示すため,4つの公開データセットにまたがるフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-07-29T09:05:10Z) - Enabling Language Models to Implicitly Learn Self-Improvement [49.16868302881804]
大規模言語モデル(LLM)は、オープンエンドテキスト生成タスクにおいて顕著な機能を示した。
我々は、人間の嗜好データから改善目標を暗黙的に学習するImPlicit Self-ImprovemenT(PIT)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-02T04:29:40Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。