Fugu-MT 論文翻訳(概要): Identifying High-Confidence Social Biases in LLMs for Trustworthy Conversational Tutoring Agents

論文の概要: Identifying High-Confidence Social Biases in LLMs for Trustworthy Conversational Tutoring Agents

arxiv url: http://arxiv.org/abs/2606.01584v1
Date: Mon, 01 Jun 2026 02:28:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-02 21:34:29.875531
Title: Identifying High-Confidence Social Biases in LLMs for Trustworthy Conversational Tutoring Agents
Title（参考訳）: 信頼できる会話学習エージェントのためのLLMにおける高信頼社会バイアスの同定
Authors: Aitor Arronte Alvarez, Naiyi Xie Fincham,
Abstract要約: 対話型学習シナリオにおける大規模言語モデル(LLM)を評価し,高い信頼度を持つ社会的バイアスを同定する。本稿では,自然主義的な指導条件下でのバイアス評価を可能にする新しいデータセット生成手法を提案する。バイアス検出は、ベンチマークベースの評価よりも会話型チューリングの文脈の方がかなり難しいことが判明した。
参考スコア（独自算出の注目度）: 0.30079490585515334
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Conversational tutoring agents have been shown to improve learning engagement and student outcomes, and large language models (LLMs) are increasingly used in these systems to provide scalable, personalized feedback. However, LLMs may perpetuate or amplify stereotypical social biases, posing particular risks in educational settings. In this study, we evaluate LLMs in conversational tutoring scenarios to identify high-confidence social biases, instances where models are unable to identify biased judgments in tutoring conversations while maintaining strong confidence in their assessments, potentially affecting their reasoning and the feedback they provide to learners. We present a new dataset generation method that enables bias evaluation under naturalistic instructional conditions by regenerating student-AI tutor interactions and introducing turns with controlled bias derived from a benchmark dataset. Using this data, we assess multiple LLMs' ability to detect stereotypical biases and analyze the confidence and reasoning underlying their responses through computational and human evaluations. We find that bias detection is substantially more challenging in conversational tutoring contexts than in benchmark-based evaluations, and that state-of-the-art LLMs are overconfident in their incorrect assessments of stereotypical bias statements. Moreover, model confidence strongly influences reasoning and feedback, highlighting the risks of overconfident, biased behavior in LLM-based tutoring agents. We conclude by discussing implications, mitigation considerations, and directions for future research.
Abstract（参考訳）: 会話学習エージェントは、学習のエンゲージメントと学生の成果を改善するために用いられており、大規模言語モデル(LLM)は、スケーラブルでパーソナライズされたフィードバックを提供するために、これらのシステムでますます利用されている。しかし、LSMはステレオタイプ的な社会的偏見を永続的または増幅し、教育環境において特定のリスクを生じさせる可能性がある。本研究では,高信頼な社会的偏見を特定するための会話学習シナリオにおけるLLMの評価を行った。本稿では,学生とAI教師のインタラクションを再現し,ベンチマークデータセットから導出される制御バイアスによるターンの導入により,自然主義的な指導条件下でのバイアス評価を可能にする新しいデータセット生成手法を提案する。このデータを用いて、ステレオタイプバイアスを検出する複数のLCMの能力を評価し、その応答の信頼性と推論を、計算的および人的評価により分析する。ベンチマークに基づく評価よりも会話型学習の文脈ではバイアス検出がかなり難しいこと,また,非定型的バイアス文の誤り評価では最先端のLCMが過度に信頼されていることが確認された。さらに、モデル自信は推論とフィードバックに強く影響を与え、LLMベースの学習エージェントにおける過信、偏りのある行動のリスクを強調している。我々は,今後の研究の意図,緩和的考察,方向性について論じる。

関連論文リスト

LLM-Evaluation Tropes: Perspectives on the Validity of LLM-Evaluations [29.031539043555362]
大規模言語モデル (LLM) は情報システムを評価するためにますます使われている。近年の研究では、LLMに基づく評価は人間の判断とよく一致することが示唆されている。本稿では,LCM評価者が誤って成功を示すシナリオについて検討する。
論文参考訳（メタデータ） (2025-04-27T02:14:21Z)
Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文参考訳（メタデータ） (2024-12-12T13:31:58Z)
CBEval: A framework for evaluating and interpreting cognitive biases in LLMs [1.4633779950109127]
大きな言語モデルは、認知過程において顕著なギャップを示す。人間の生成したデータのリフレクションとして、これらのモデルは認知バイアスを継承する可能性がある。
論文参考訳（メタデータ） (2024-12-04T05:53:28Z)
Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文参考訳（メタデータ） (2024-06-20T06:42:08Z)
Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs [6.090496490133132]
本稿では,従来のRLHFのフィードバックに取って代わるバイアス緩和手法であるReinforcement Learning from Multi-role Debates as Feedback (RLDF)を提案する。強化学習における報酬モデルのトレーニングに,高バイアスと低バイアスの両方のインスタンスを含むデータセットを作成するために,LLMをマルチロール討論に活用する。
論文参考訳（メタデータ） (2024-04-15T22:18:50Z)
Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文参考訳（メタデータ） (2024-04-08T14:15:56Z)
What Large Language Models Know and What People Think They Know [13.939511057660013]
大規模言語モデル(LLM)は意思決定プロセスに統合されつつある。人間の信頼を得るためには、LSMは正確に評価し、正しい予測の可能性を伝達できるように、適切に校正されなければならない。ここでは, LLM生成回答における人間の信頼度とモデルの実際の信頼度との差を示すキャリブレーションギャップと, 人間とモデルが正解と誤解をいかによく区別できるかを反映した識別ギャップについて検討する。
論文参考訳（メタデータ） (2024-01-24T22:21:04Z)
Relying on the Unreliable: The Impact of Language Models' Reluctance to Express Uncertainty [53.336235704123915]
提案手法は, 自然言語による応答の信頼度と, LMによる不確実性に応答して下流ユーザーがどのように振る舞うかを考察する。誤応答を生じた場合でも,LMは疑問に答える際の不確実性を表現することに消極的であることがわかった。我々は、人間の実験によって、LM過信のリスクを検証し、ユーザがLM世代に大きく依存していることを示します。最後に、トレーニング後のアライメントに使用する嗜好アノテートデータセットを調査し、不確実性のあるテキストに対して人間がバイアスを受けていることを確認する。
論文参考訳（メタデータ） (2024-01-12T18:03:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。