論文の概要: "Check My Work?": Measuring Sycophancy in a Simulated Educational Context
- arxiv url: http://arxiv.org/abs/2506.10297v1
- Date: Thu, 12 Jun 2025 02:21:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.531216
- Title: "Check My Work?": Measuring Sycophancy in a Simulated Educational Context
- Title(参考訳): 「Check My Work?」 : 模擬教育文脈におけるシクロファンシーの測定
- Authors: Chuck Arvin,
- Abstract要約: 本研究では,ユーザが提案する提案が,シミュレーション学習環境におけるLarge Language Model(LLM)に与える影響について検討する。
クエリ・フレーミングに基づいて応答品質が劇的に変化することを示す。
この結果から,このようなバイアスを教育の文脈で緩和する方法やメカニズムをよりよく理解する必要性が浮かび上がっている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study examines how user-provided suggestions affect Large Language Models (LLMs) in a simulated educational context, where sycophancy poses significant risks. Testing five different LLMs from the OpenAI GPT-4o and GPT-4.1 model classes across five experimental conditions, we show that response quality varies dramatically based on query framing. In cases where the student mentions an incorrect answer, the LLM correctness can degrade by as much as 15 percentage points, while mentioning the correct answer boosts accuracy by the same margin. Our results also show that this bias is stronger in smaller models, with an effect of up to 30% for the GPT-4.1-nano model, versus 8% for the GPT-4o model. Our analysis of how often LLMs "flip" their answer, and an investigation into token level probabilities, confirm that the models are generally changing their answers to answer choices mentioned by students in line with the sycophancy hypothesis. This sycophantic behavior has important implications for educational equity, as LLMs may accelerate learning for knowledgeable students while the same tools may reinforce misunderstanding for less knowledgeable students. Our results highlight the need to better understand the mechanism, and ways to mitigate, such bias in the educational context.
- Abstract(参考訳): 本研究では,ユーザが提案する提案が,言語モデル(LLM)にどのように影響するかを検討する。
OpenAI GPT-4o と GPT-4.1 のモデルクラスを5つの実験条件で比較したところ,クエリ・フレーミングに基づいて応答品質が劇的に変化することがわかった。
学生が誤答について言及する場合、LLMの正解率は最大15ポイント低下し、正しい解が同じマージンで精度が向上する。
また, GPT-4.1-nanoモデルでは最大30%, GPT-4.1-nanoモデルでは8%であった。
LLMの回答の「フリップ」頻度の分析とトークンレベルの確率の調査により、これらのモデルが一般的に、学生が言及する選択に答えるために、梅毒仮説に従って回答を変更していることが確認された。
LLMが知識のある学生の学習を加速する一方で、同じツールが知識の少ない学生の誤解を強める可能性があるため、このシコファン的行動は教育的平等に重要な意味を持つ。
この結果から,このようなバイアスを教育の文脈で緩和する方法やメカニズムをよりよく理解する必要性が浮かび上がっている。
関連論文リスト
- Can Large Language Models Match Tutoring System Adaptivity? A Benchmarking Study [0.0]
大規模言語モデル(LLM)は動的命令補助として約束を守る。
しかし、LLMが知的チューリングシステム(ITS)の適応性を再現できるかどうかは不明である。
論文 参考訳(メタデータ) (2025-04-07T23:57:32Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Learning to Love Edge Cases in Formative Math Assessment: Using the AMMORE Dataset and Chain-of-Thought Prompting to Improve Grading Accuracy [0.0]
本稿では,Rori による 53,000 個の質問応答対の新たなデータセットである AMMORE を紹介する。
2つの実験により,大規模言語モデル(LLM)を用いて,難解な学生の回答を段階的に評価する。
論文 参考訳(メタデータ) (2024-09-26T14:51:40Z) - See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。
GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。
次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文 参考訳(メタデータ) (2024-08-16T19:01:52Z) - Language Models can Evaluate Themselves via Probability Discrepancy [38.54454263880133]
様々な大規模言語モデル(LLM)の有効性を評価するための自己評価手法ProbDiffを提案する。
テスト中のLSMを、初期応答と修正バージョンの間の確率差を計算するために独自に利用する。
以上の結果から, ProbDiff は GPT-4 に基づく評価結果と同等の結果を得た。
論文 参考訳(メタデータ) (2024-05-17T03:50:28Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。
我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文 参考訳(メタデータ) (2023-11-14T23:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。