論文の概要: Sycophancy Claims about Language Models: The Missing Human-in-the-Loop
- arxiv url: http://arxiv.org/abs/2512.00656v1
- Date: Sat, 29 Nov 2025 22:40:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.346144
- Title: Sycophancy Claims about Language Models: The Missing Human-in-the-Loop
- Title(参考訳): 言語モデルに関するSycophancyの主張: 失う人間
- Authors: Jan Batzner, Volker Stocker, Stefan Schmid, Gjergji Kasneci,
- Abstract要約: 梅毒は本質的に人間中心であるにもかかわらず、現在の研究は人間の知覚を評価していない。
我々の分析は、サイコファンティック応答とAIアライメントの関連概念を区別することの難しさを浮き彫りにしている。
- 参考スコア(独自算出の注目度): 14.8902210495293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sycophantic response patterns in Large Language Models (LLMs) have been increasingly claimed in the literature. We review methodological challenges in measuring LLM sycophancy and identify five core operationalizations. Despite sycophancy being inherently human-centric, current research does not evaluate human perception. Our analysis highlights the difficulties in distinguishing sycophantic responses from related concepts in AI alignment and offers actionable recommendations for future research.
- Abstract(参考訳): LLM(Large Language Models)におけるシコファン応答パターンは、文献でますます主張されている。
LLM sycophancy 測定における方法論的課題を概観し,5つのコアオペレーテーションを同定する。
梅毒は本質的に人間中心であるにもかかわらず、現在の研究は人間の知覚を評価していない。
我々の分析は、サイコファンティック応答とAIアライメントの関連概念を区別することの難しさを強調し、将来の研究に実用的なレコメンデーションを提供する。
関連論文リスト
- HumanPCR: Probing MLLM Capabilities in Diverse Human-Centric Scenes [72.26829188852139]
HumanPCRは、人間の視覚的コンテキストに関するMLLMの能力を調べるための評価スイートである。
Human-P、HumanThought-C、Human-Rは、6,000以上の人間認証された複数の選択質問を特徴としている。
Human-Rは、手動でキュレートされたビデオ推論テストを提供する。
論文 参考訳(メタデータ) (2025-08-19T09:52:04Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - Ontologies in Design: How Imagining a Tree Reveals Possibilites and Assumptions in Large Language Models [0.4563238570902448]
価値に基づく分析は重要であるが、これらのシステムを分析する上ではあまり認識されていない。
多元主義との実践に基づく関わりの必要性を示唆し、設計の方向性を検討するための4つの方向性を提供する。
論文 参考訳(メタデータ) (2025-04-03T21:04:36Z) - Thinking beyond the anthropomorphic paradigm benefits LLM research [1.7392902719515677]
人相同性(人相同性、英: Anthropomorphism)は、技術的に高度な専門知識を持つ人でも起こる自動的かつ無意識的な反応である。
人類型用語学に反映される深い仮定に挑戦する。
論文 参考訳(メタデータ) (2025-02-13T11:32:09Z) - Humanlike Cognitive Patterns as Emergent Phenomena in Large Language Models [2.9312156642007294]
我々は、意思決定バイアス、推論、創造性の3つの重要な認知領域にわたって、大規模言語モデルの能力を体系的にレビューする。
意思決定では、LSMはいくつかの人間のようなバイアスを示すが、人間の観察するバイアスは欠落している。
GPT-4のような先進的なLCMは、人間のシステム2思考に似た熟考的推論を示し、小さなモデルは人間レベルの性能に欠ける。
LLMはストーリーテリングのような言語ベースの創造的なタスクに優れているが、現実の文脈を必要とする散発的な思考タスクに苦労する。
論文 参考訳(メタデータ) (2024-12-20T02:26:56Z) - Sycophancy in Large Language Models: Causes and Mitigations [0.0]
大規模言語モデル (LLM) は、幅広い自然言語処理タスクにおいて顕著な機能を示した。
シコファンの行動を示す傾向は、その信頼性と倫理的展開に重大なリスクをもたらす。
本稿では, LLMにおけるサイコフィナンシーの技術的調査を行い, その原因, 影響, 潜在的な緩和戦略について分析する。
論文 参考訳(メタデータ) (2024-11-22T16:56:49Z) - When Large Language Models contradict humans? Large Language Models' Sycophantic Behaviour [0.8133739801185272]
本研究では,サイコファンティック行動に対する大規模言語モデルの提案可能性について検討する。
この行動は梅毒(sycophancy)として知られ、LLMが誤解を招く反応を引き起こす傾向を描いている。
論文 参考訳(メタデータ) (2023-11-15T22:18:33Z) - Towards Understanding Sycophancy in Language Models [49.352840825419236]
人間のフィードバックを利用した微調整を施したモデルにおける梅毒の有病率について検討した。
5つの最先端のAIアシスタントが、4つの異なる自由形式のテキスト生成タスクで常に梅毒を発現していることを示す。
以上の結果から、サイコファンシーは最先端のAIアシスタントの一般的な行動である可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-20T14:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。