論文の概要: Psychologically Potent, Computationally Invisible: LLMs Generate Social-Comparison Triggers They Fail to Detect
- arxiv url: http://arxiv.org/abs/2605.01017v1
- Date: Fri, 01 May 2026 18:28:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.539748
- Title: Psychologically Potent, Computationally Invisible: LLMs Generate Social-Comparison Triggers They Fail to Detect
- Title(参考訳): 心理学的に有意で、計算的に見えない:LLMは、検出できない社会的比較トリガーを生成する
- Authors: Hua Zhao, Jiapei Gu, Michelle Mingyue Gu,
- Abstract要約: タスクは社会的に意味のあるリレーショナルシグナルをターゲットとしており、それは行動的にリアルであり、感情に還元できない。
XHS-SCoREは、読取者による比較検出のためのベンチマークと、社会的に有意な関係的手がかりが部分的にのみ、プロンプトベースの推論にしか見えないかどうかを研究するための診断フレームワークの両方に貢献する。
- 参考スコア(独自算出の注目度): 0.5735035463793009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Xiaohongshu Social Comparison Reader Elicitation (XHS-SCoRE), a reader-grounded benchmark for detecting if a text-only Xiaohongshu (RedNote) post elicits UPWARD, DOWNWARD, or NEUTRAL/no clear social comparison from a first-person reader perspective. The task targets a socially meaningful relational signal that is behaviorally real yet not reducible to sentiment. Across prompted LLM classifiers and supervised Chinese encoder baselines, we find a consistent mismatch between generation fluency and reliable detection ability: the signal is textually learnable in-domain, but not robustly accessible to prompt-based classification. Prompted LLM classifiers exhibit stable, interpretable failure modes, especially neutralization of comparison-triggering posts and model-specific directional skew. A controlled pilot further shows that LLM-generated Xiaohongshu-style posts can shift perceived standing and comparison-related affect even when prompt-based detection of the same construct remains fragile. XHS-SCoRE contributes both a benchmark for reader-grounded comparison detection and a diagnostic framework for studying when socially meaningful relational cues remain only partially visible to prompt-based inference.
- Abstract(参考訳): Xaohongshu Social Comparison Reader Elicitation (XHS-SCoRE) は、テキストのみのXiaohongshu(RedNote)ポストがUPWARD、DOWNWARD、NEUTRALを誘導するかどうかを1対1で判定するベンチマークである。
このタスクは、社会的に意味のあるリレーショナルシグナルを目標としており、それは行動的にリアルであり、感情に還元できない。
LLM分類器と教師付き中国語エンコーダベースラインにまたがって、生成流速と信頼性の高い検出能力の間には、一貫したミスマッチがある:信号はテキストで学習できるが、プロンプトベースの分類には堅牢にアクセスできない。
プロンプテッドLLM分類器は安定かつ解釈可能な故障モードを示し、特に比較トリガーポストとモデル固有の方向スクリューを中和する。
制御されたパイロットは、LLM生成のXiaohongshuスタイルのポストが、同じ構造体を即時検出しても、立位と比較関連の影響を知覚できることを示した。
XHS-SCoREは、読取者による比較検出のためのベンチマークと、社会的に有意な関係的手がかりが部分的にのみ、プロンプトベースの推論にしか見えないかどうかを研究するための診断フレームワークの両方に貢献する。
関連論文リスト
- Contrastive Attribution in the Wild: An Interpretability Analysis of LLM Failures on Realistic Benchmarks [42.92210265283373]
解釈可能性ツールは、大規模言語モデル(LLM)の失敗を分析するために、ますます使われています。
現実的な環境下でのLLM故障を解析するための実用的なツールとして,LRPに基づく帰属性について検討した。
以上の結果から,このトークンレベルのコントラスト属性は,いくつかの障害事例において情報信号が得られるが,一般には適用できないことがわかった。
論文 参考訳(メタデータ) (2026-04-20T03:24:11Z) - Neural Uncertainty Principle: A Unified View of Adversarial Fragility and LLM Hallucination [60.197429875410286]
大規模言語モデルにおける視覚と幻覚の対立的脆弱性は、伝統的に別の問題と見なされている。
損失誘起状態下でのニューラル不確実性原理(NUP)の定式化により, ほぼバウンド状態においては, さらなる圧縮は感度分散の増大を伴うことが判明した。
視覚では、高度に結合したコンポーネントをマスキングすることで、コストのかかる敵の訓練なしに堅牢性を向上させる。
言語では、任意の応答トークンを生成する前に、同じプレフィルステージプローブが幻覚リスクを検出する。
論文 参考訳(メタデータ) (2026-03-20T02:07:10Z) - Optimizing What We Trust: Reliability-Guided QUBO Selection of Multi-Agent Weak Framing Signals for Arabic Sentiment Prediction [0.0]
アラビア語のソーシャルメディアにおけるフラーミングの検出は、解釈的曖昧さ、文化的根拠、限られた信頼できる監督のために困難である。
本稿では,ラベル融合からデータキュレーションへ焦点を移す信頼性に配慮した弱い監視フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-04T09:19:43Z) - Observer, Not Player: Simulating Theory of Mind in LLMs through Game Observation [0.0]
大規模言語モデル(LLM)が真の「理解」を示すかどうかを評価するための対話型フレームワークを提案する。
単純であるにもかかわらず、シーケンシャルな推論、適応、戦略認識を必要とするRock-Paper-Scissors (RPS)に焦点を当てる。
我々のフレームワークは、予測精度だけでなく、モデルが実行中の潜在戦略を安定して識別できるかどうかも把握します。
論文 参考訳(メタデータ) (2025-12-22T09:49:13Z) - Diversity Boosts AI-Generated Text Detection [51.56484100374058]
DivEyeは、予備的な機能を使って、予測不可能がテキスト間でどのように変動するかをキャプチャする、新しいフレームワークである。
提案手法は、既存のゼロショット検出器を最大33.2%向上させ、微調整ベースラインとの競合性能を達成する。
論文 参考訳(メタデータ) (2025-09-23T10:21:22Z) - RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns [50.401907401444404]
大規模言語モデル(LLM)は、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。
本稿では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。
実験結果から、RepreGuardは、平均94.92%のAUROCですべてのベースラインでID(in-distriion)とOOD(OOD)の両方のシナリオでパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-08-18T17:59:15Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。