論文の概要: SycEval: Evaluating LLM Sycophancy
- arxiv url: http://arxiv.org/abs/2502.08177v1
- Date: Wed, 12 Feb 2025 07:32:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:48:30.287925
- Title: SycEval: Evaluating LLM Sycophancy
- Title(参考訳): SycEval: LLMのSycophancyを評価する
- Authors: Aaron Fanous, Jacob Goldberg, Ank A. Agarwal, Joanna Lin, Anson Zhou, Roxana Daneshjou, Sanmi Koyejo,
- Abstract要約: 大規模言語モデル(LLM)は、教育、臨床、専門的な設定にますます応用されている。
独立した推論よりもユーザ合意を優先する、彼らの梅毒の傾向は、信頼性にリスクをもたらします。
本研究では,ChatGPT-4o,Claude-Sonnet,Gemini-1.5-Proの各データセットにおけるサイコファンティックな振る舞いを評価するためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.11891394949636
- License:
- Abstract: Large language models (LLMs) are increasingly applied in educational, clinical, and professional settings, but their tendency for sycophancy -- prioritizing user agreement over independent reasoning -- poses risks to reliability. This study introduces a framework to evaluate sycophantic behavior in ChatGPT-4o, Claude-Sonnet, and Gemini-1.5-Pro across AMPS (mathematics) and MedQuad (medical advice) datasets. Sycophantic behavior was observed in 58.19% of cases, with Gemini exhibiting the highest rate (62.47%) and ChatGPT the lowest (56.71%). Progressive sycophancy, leading to correct answers, occurred in 43.52% of cases, while regressive sycophancy, leading to incorrect answers, was observed in 14.66%. Preemptive rebuttals demonstrated significantly higher sycophancy rates than in-context rebuttals (61.75% vs. 56.52%, $Z=5.87$, $p<0.001$), particularly in computational tasks, where regressive sycophancy increased significantly (preemptive: 8.13%, in-context: 3.54%, $p<0.001$). Simple rebuttals maximized progressive sycophancy ($Z=6.59$, $p<0.001$), while citation-based rebuttals exhibited the highest regressive rates ($Z=6.59$, $p<0.001$). Sycophantic behavior showed high persistence (78.5%, 95% CI: [77.2%, 79.8%]) regardless of context or model. These findings emphasize the risks and opportunities of deploying LLMs in structured and dynamic domains, offering insights into prompt programming and model optimization for safer AI applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、教育、臨床、専門的な設定にますます適用されていますが、その傾向、すなわち、独立した推論よりもユーザの合意を優先すること -- は、信頼性にリスクをもたらします。
本研究では,ChatGPT-4o,Claude-Sonnet,Gemini-1.5-ProにおけるAMPS(数学)およびMedQuad(医学的アドバイス)データセット間のサイコファンティック行動を評価する枠組みを提案する。
シコファンの行動は58.19%で観察され、ジェミニは62.47%、チャットGPTは56.71%であった。
正しい答えにつながる進行性梅毒は43.52%の症例で発生し、逆行性梅毒は14.66%で誤った回答を導いた。
プリエンプティブ・リビュータルは、特に計算タスクにおいて、非コンテクスト・リビュータル(61.75% vs. 56.52%, $Z=5.87$, $p<0.001$)よりもはるかに高いサイコファンシー率を示した(プリエンプティブ: 8.13%, in-context: 3.54%, $p<0.001$)。
単純な反響は進行性梅毒(Z=6.59$, $p<0.001$)を最大化し、引用に基づく反響は最も高い回帰率(Z=6.59$, $p<0.001$)を示した。
シコファンの行動は、文脈やモデルに関係なく高い持続性(78.5%、95%CI:[77.2%、79.8%)を示した。
これらの発見は、構造化および動的ドメインにLLMをデプロイするリスクと機会を強調し、より安全なAIアプリケーションのための迅速なプログラミングとモデル最適化に関する洞察を提供する。
関連論文リスト
- Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文 参考訳(メタデータ) (2024-11-25T12:44:02Z) - Evaluating the Accuracy of Chatbots in Financial Literature [0.0]
2つのチャットボットであるChatGPT(4oおよびo1-previewバージョン)とGemini Advancedの信頼性を評価する。
本研究は,幻覚率とトピックの最近の変化を評価するために,非バイナリアプローチと回帰尺度を開発した。
論文 参考訳(メタデータ) (2024-11-11T14:37:57Z) - A Comprehensive Evaluation of Large Language Models on Mental Illnesses [0.8458496687170665]
GPT-4とLlama 3はバイナリ障害検出において優れた性能を示し、特定のデータセットで最大85%の精度に達した。
素早いエンジニアリングは モデル性能を高める上で 重要な役割を担った
有望な結果にもかかわらず、我々の分析では、データセット間のパフォーマンスのばらつきや、注意深いプロンプトエンジニアリングの必要性など、いくつかの課題を特定した。
論文 参考訳(メタデータ) (2024-09-24T02:58:52Z) - STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive Progressions [6.19084217044276]
大規模言語モデル(LLM)における明示的バイアスと暗黙的バイアスの緩和は、自然言語処理の分野において重要な焦点となっている。
我々は,2700のユニークな文を含む450の攻撃的進行を含む,攻撃的進行に関する感性テストデータセットを紹介した。
以上の結果から,最も優れたモデルでさえバイアスを不整合に検出し,成功率は19.3%から69.8%であった。
論文 参考訳(メタデータ) (2024-09-20T18:34:38Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Llamas Know What GPTs Don't Show: Surrogate Models for Confidence
Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。
2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。
言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文 参考訳(メタデータ) (2023-11-15T11:27:44Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z) - Progressive-Hint Prompting Improves Reasoning in Large Language Models [63.98629132836499]
本稿では,プログレッシブ・ヒント・プロンプト(PHP)と呼ばれる新しいプロンプト手法を提案する。
事前に生成された回答をヒントとして使用することで、ユーザとLLM(Large Language Models)間の自動多元的対話を可能にする。
我々は7つのベンチマークで広範囲かつ包括的な実験を行った。その結果、PHPは高い効率を保ちながら精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-04-19T16:29:48Z) - Tactile Grasp Refinement using Deep Reinforcement Learning and Analytic
Grasp Stability Metrics [70.65363356763598]
解析的把握安定性指標が強化学習アルゴリズムの強力な最適化目標であることを示す。
幾何的および力量に依存しないグリップ安定性の指標を組み合わせることで、カブイドの平均成功率は95.4%となることを示す。
第2の実験では,触覚情報を持たないベースラインよりも,接触フィードバックで訓練したグリップリファインメントアルゴリズムが最大6.6%向上することを示した。
論文 参考訳(メタデータ) (2021-09-23T09:20:19Z) - Multi-objective optimization and explanation for stroke risk assessment
in Shanxi province [7.880149888890841]
ストロークは中国で最大の死因である。
本論文のモデルと分析ツールは, 理論的に最適化された予測法を提供するだけでなく, 各患者のリスク状態と推移方向の帰属的説明も提供する。
論文 参考訳(メタデータ) (2021-07-29T14:53:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。