論文の概要: The Chameleon Nature of LLMs: Quantifying Multi-Turn Stance Instability in Search-Enabled Language Models
- arxiv url: http://arxiv.org/abs/2510.16712v1
- Date: Sun, 19 Oct 2025 04:51:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.105673
- Title: The Chameleon Nature of LLMs: Quantifying Multi-Turn Stance Instability in Search-Enabled Language Models
- Title(参考訳): LLMのカメレオン的性質:検索可能な言語モデルにおけるマルチターンスタンス不安定性の定量化
- Authors: Shivam Ratnakar, Sanjay Raghavendra,
- Abstract要約: 本稿では,大規模言語モデルにおける「カメレオン行動」に関する最初の体系的研究について述べる。
我々は最先端のシステムに根本的な欠陥を露呈する。
情報源の再使用率と信頼性の相関は統計的に有意である。
- 参考スコア(独自算出の注目度): 1.4323566945483497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Integration of Large Language Models with search/retrieval engines has become ubiquitous, yet these systems harbor a critical vulnerability that undermines their reliability. We present the first systematic investigation of "chameleon behavior" in LLMs: their alarming tendency to shift stances when presented with contradictory questions in multi-turn conversations (especially in search-enabled LLMs). Through our novel Chameleon Benchmark Dataset, comprising 17,770 carefully crafted question-answer pairs across 1,180 multi-turn conversations spanning 12 controversial domains, we expose fundamental flaws in state-of-the-art systems. We introduce two theoretically grounded metrics: the Chameleon Score (0-1) that quantifies stance instability, and Source Re-use Rate (0-1) that measures knowledge diversity. Our rigorous evaluation of Llama-4-Maverick, GPT-4o-mini, and Gemini-2.5-Flash reveals consistent failures: all models exhibit severe chameleon behavior (scores 0.391-0.511), with GPT-4o-mini showing the worst performance. Crucially, small across-temperature variance (less than 0.004) suggests the effect is not a sampling artifact. Our analysis uncovers the mechanism: strong correlations between source re-use rate and confidence (r=0.627) and stance changes (r=0.429) are statistically significant (p less than 0.05), indicating that limited knowledge diversity makes models pathologically deferential to query framing. These findings highlight the need for comprehensive consistency evaluation before deploying LLMs in healthcare, legal, and financial systems where maintaining coherent positions across interactions is critical for reliable decision support.
- Abstract(参考訳): 大規模言語モデルと検索/検索エンジンの統合はユビキタスなものとなっているが、これらのシステムは信頼性を損なう重大な脆弱性を持っている。
LLMにおける「カメレオン行動」に関する最初の体系的な研究として、多ターン会話(特に検索可能なLLM)における矛盾する質問を提示すると、その姿勢を変える傾向について述べる。
本誌の小説Chameleon Benchmark Datasetは、12の物議を醸すドメインにまたがる1180のマルチターン会話に対して、17,770の質問応答ペアを慎重に作成することによって、最先端システムの根本的な欠陥を明らかにしている。
本稿では, 安定度を定量化するChameleon Score (0-1) と, 知識の多様性を測定する Source Re-use Rate (0-1) の2つの理論的基礎的指標を紹介する。
Llama-4-Maverick, GPT-4o-mini, Gemini-2.5-Flashの厳密な評価では、全てのモデルが重度のカメレオン挙動(スコア0.391-0.511)を示し、GPT-4o-miniは最悪の性能を示した。
極端に、温度差が小さい(0.004未満)ことは、この効果がサンプリングアーティファクトではないことを示唆している。
情報源再使用率と信頼性(r=0.627)と姿勢変化(r=0.429)の強い相関関係は統計的に有意であり(p0.05未満)、限られた知識の多様性が、クエリフレーミングに対して病理学的に決定的であることを示す。
これらの知見は、医療、法律、金融システムにLCMを配置する前に、相互に整合的な位置を維持することが信頼性の高い意思決定支援に不可欠である、包括的な整合性評価の必要性を強調している。
関連論文リスト
- Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - Shallow Robustness, Deep Vulnerabilities: Multi-Turn Evaluation of Medical LLMs [9.291589998223696]
MedQA-Followupは,医療質問応答におけるマルチターンロバスト性を評価するためのフレームワークである。
MedQAデータセットの制御介入を用いて、5つの最先端LCMを評価する。
モデルは浅瀬の摂動下では合理的に良好に機能するが、マルチターン設定では深刻な脆弱性が現れる。
論文 参考訳(メタデータ) (2025-10-14T08:04:18Z) - Zero-knowledge LLM hallucination detection and mitigation through fine-grained cross-model consistency [10.052307738781678]
大規模言語モデル(LLM)は、様々なタスクにまたがる印象的な能力を示してきたが、幻覚(幻覚)の影響を受けにくい。
Finch-Zkは、FINeの粒度の交差モデルの整合性を利用して、外部の知識源を必要とせず、LLM出力の幻覚を検出・緩和するフレームワークである。
論文 参考訳(メタデータ) (2025-08-19T23:45:34Z) - Persistent Instability in LLM's Personality Measurements: Effects of Scale, Reasoning, and Conversation History [7.58175460763641]
400B+モデルでさえ、相当な応答変動を示す。
連鎖推論、詳細なペルソナ指導、会話履歴の含意など、行動の安定化を期待する介入は、パラドックス的に変動を増大させる。
予測可能な行動を必要とする安全クリティカルなアプリケーションに対しては,人格に基づくアライメント戦略が根本的に不十分である可能性が示唆された。
論文 参考訳(メタデータ) (2025-08-06T19:11:33Z) - Too Consistent to Detect: A Study of Self-Consistent Errors in LLMs [87.79350168490475]
本研究は, 自己整合誤差を正式に定義し, 主流検出手法の評価を行う。
4種類の検出方法は全て、自己整合性エラーを検出するのにかなり苦労している。
自己整合性誤差がLLM間でしばしば異なるという観測により、我々は単純で効果的なクロスモデルプローブを提案する。
論文 参考訳(メタデータ) (2025-05-23T09:18:56Z) - Seeing What's Not There: Spurious Correlation in Multimodal LLMs [47.651861502104715]
我々は,人間の監督なしに刺激的な視覚的手がかりを自動的に識別するパイプラインであるSpurLensを紹介した。
MLLM(Multimodal Large Language Models)において,スプリアス相関が2つの大きな障害モードを引き起こすことが明らかとなった。
相関関係の持続性を明らかにすることにより,MLLMの信頼性を高めるため,より厳密な評価手法と緩和戦略が求められた。
論文 参考訳(メタデータ) (2025-03-11T20:53:00Z) - Benchmarking Gaslighting Negation Attacks Against Multimodal Large Language Models [45.63440666848143]
MLLM(Multimodal Large Language Models)は、様々なモダリティの統合において顕著な進歩を見せている。
彼らの成功にもかかわらず、MLLMは会話の敵対的な入力に弱いままである。
我々は,最初に正しい回答を提供するモデルが,ユーザが提供する否定によってそのアウトプットを逆転するように説得される現象であるガスライティング否定攻撃について検討する。
論文 参考訳(メタデータ) (2025-01-31T10:37:48Z) - Verbosity $\neq$ Veracity: Demystify Verbosity Compensation Behavior of Large Language Models [8.846200844870767]
大規模言語モデル(LLM)の好ましくない振る舞いの下位タイプを発見する。
我々はVerbosity Compensation (VC) を不確実性下での人間の鎮静行動と類似しているとしている。
本稿では, 冗長応答を他のモデル生成応答に置き換える, 単純で効果的なカスケードアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-12T15:15:20Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。