論文の概要: Community-Aligned Behavior Under Uncertainty: Evidence of Epistemic Stance Transfer in LLMs
- arxiv url: http://arxiv.org/abs/2511.17572v1
- Date: Fri, 14 Nov 2025 20:04:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.291204
- Title: Community-Aligned Behavior Under Uncertainty: Evidence of Epistemic Stance Transfer in LLMs
- Title(参考訳): 不確実性下におけるコミュニティアライメント行動:LLMにおけるてんかん転移の証拠
- Authors: Patrick Gerard, Aiden Chang, Svitlana Volkova,
- Abstract要約: ロシアとウクライナの軍事談話と米国のパルチザンのTwitterデータを用いて、一致したLLMは不確実性に対処するための安定したコミュニティ固有の行動パターンを維持していることがわかった。
これらの結果は、アライメントが表面の模倣を越えて構造化され、一般化可能な振る舞いを符号化する証拠となる。
- 参考スコア(独自算出の注目度): 0.7865191493201841
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When large language models (LLMs) are aligned to a specific online community, do they exhibit generalizable behavioral patterns that mirror that community's attitudes and responses to new uncertainty, or are they simply recalling patterns from training data? We introduce a framework to test epistemic stance transfer: targeted deletion of event knowledge, validated with multiple probes, followed by evaluation of whether models still reproduce the community's organic response patterns under ignorance. Using Russian--Ukrainian military discourse and U.S. partisan Twitter data, we find that even after aggressive fact removal, aligned LLMs maintain stable, community-specific behavioral patterns for handling uncertainty. These results provide evidence that alignment encodes structured, generalizable behaviors beyond surface mimicry. Our framework offers a systematic way to detect behavioral biases that persist under ignorance, advancing efforts toward safer and more transparent LLM deployments.
- Abstract(参考訳): 大規模言語モデル(LLM)が特定のオンラインコミュニティと一致している場合、コミュニティの態度や新しい不確実性に対する反応を反映した一般化可能な行動パターンを示すのか、あるいは単にトレーニングデータからパターンをリコールするだけなのか?
我々は,複数のプローブで検証したイベント知識の標的削除と,コミュニティの有機反応パターンを無知で再現するか否かを評価する。
ロシアとウクライナの軍事談話と米国のパルチザンのTwitterデータを用いて、攻撃的な事実削除後も、LLMは不確実性に対処するための安定したコミュニティ固有の行動パターンを維持している。
これらの結果は、アライメントが表面の模倣を越えて構造化され、一般化可能な振る舞いを符号化する証拠となる。
我々のフレームワークは、無知の下で持続する行動バイアスを検知する体系的な方法を提供する。
関連論文リスト
- Contamination Detection for VLMs using Multi-Modal Semantic Perturbation [73.76465227729818]
オープンソースのVision-Language Models (VLM)は、ベンチマークタスクで最先端のパフォーマンスを達成した。
プレトレーニングコーパスは,テストセットリークによるパフォーマンスの低下という,実践者とユーザ双方にとって重要な懸念を提起する。
既存の検出手法が不整合性を示すか,不整合性を示すかを示す。
マルチモーダルなセマンティック摂動に基づく,新しい簡易かつ効果的な検出法を提案する。
論文 参考訳(メタデータ) (2025-11-05T18:59:52Z) - Unsupervised Hallucination Detection by Inspecting Reasoning Processes [53.15199932086543]
非教師付き幻覚検出は、ラベル付きデータに頼ることなく、大規模言語モデル(LLM)が生成する幻覚コンテンツを特定することを目的としている。
本稿では,非教師なし幻覚検出フレームワークIRISを提案する。
我々の手法は完全に教師なし、計算コストが低く、訓練データが少ない場合でもうまく機能し、リアルタイム検出に適しています。
論文 参考訳(メタデータ) (2025-09-12T06:58:17Z) - False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize [30.448801772258644]
大きな言語モデル(LLM)は有害な命令に従うことができ、その優れた能力にもかかわらず深刻な安全上の懸念を生じさせる。
近年の研究は、LLMの内部表現における悪意と良性入力の分離性の研究に、探索に基づくアプローチを活用している。
その結果,調査者は意味的有害性よりも表面的なパターンを学習する,という仮説が得られた。
論文 参考訳(メタデータ) (2025-09-04T05:15:55Z) - SafeConstellations: Steering LLM Safety to Reduce Over-Refusals Through Task-Specific Trajectory [5.962636335604981]
過剰な拒絶行動は、有害な内容に表面的に類似する良心的な指示をモデルが拒否する原因となる。
SafeConstellationsは、タスク固有の軌道パターンを追跡し、非拒否経路への表現を誘導する推論時軌道シフト手法である。
本手法は, 過断率を最大73%削減し, 過断率を緩和する基本手法であるユーティリティオフリングに最小限の影響を与える。
論文 参考訳(メタデータ) (2025-08-15T07:54:42Z) - Hidden in Plain Sight: Reasoning in Underspecified and Misspecified Scenarios for Multimodal LLMs [28.913007638707427]
マルチモーダルな大規模言語モデル(MLLM)は、オープンエンドの現実世界の環境にますます多くデプロイされている。
本稿では,現在のMLLMが暗黙の推論シナリオをどのように扱うのかを体系的に分析する。
モデルは、必要な知覚と推論スキルを持っている場合でも、隠れた問題にしばしば遭遇しない。
論文 参考訳(メタデータ) (2025-05-30T21:47:28Z) - Emergent LLM behaviors are observationally equivalent to data leakage [0.0]
大規模言語モデル(LLM)は,人間の社会規範を連想させる言語慣習を自然に発達させることを示す。
著者らによる緩和策にもかかわらず、LLMが協調ゲームの構造を認識し、その結果を思い出すことを示す複数の分析結果を提供する。
論文 参考訳(メタデータ) (2025-05-26T13:44:55Z) - Think Before Refusal : Triggering Safety Reflection in LLMs to Mitigate False Refusal Behavior [59.20260988638777]
本研究は, 応答発生前の安全反射の促進により, 虚偽の拒絶行動が軽減されることを実証する。
15種類の事前訓練モデルを対象としたアブレーション実験において, 安全性を考慮した微調整モデルでは, 誤検知の挙動が著しく低下することがわかった。
論文 参考訳(メタデータ) (2025-03-22T23:35:49Z) - MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries? [70.77691645678804]
人間は認知の歪みに傾向があり、特定の刺激に対する過大な反応を引き起こす偏見のある思考パターンがある。
本稿では,高度マルチモーダル言語モデル (MLLM) が同様の傾向を示すことを示す。
既存のMLLMの過敏性を引き起こす3種類の刺激を同定する。
論文 参考訳(メタデータ) (2024-06-22T23:26:07Z) - Relying on the Unreliable: The Impact of Language Models' Reluctance to Express Uncertainty [53.336235704123915]
提案手法は, 自然言語による応答の信頼度と, LMによる不確実性に応答して下流ユーザーがどのように振る舞うかを考察する。
誤応答を生じた場合でも,LMは疑問に答える際の不確実性を表現することに消極的であることがわかった。
我々は、人間の実験によって、LM過信のリスクを検証し、ユーザがLM世代に大きく依存していることを示します。
最後に、トレーニング後のアライメントに使用する嗜好アノテートデータセットを調査し、不確実性のあるテキストに対して人間がバイアスを受けていることを確認する。
論文 参考訳(メタデータ) (2024-01-12T18:03:30Z) - Examining LLMs' Uncertainty Expression Towards Questions Outside
Parametric Knowledge [35.067234242461545]
大規模言語モデル(LLM)は、適切な応答を生成するのに十分なパラメトリック知識が不足している状況において不確実性を表現する。
本研究の目的は,このような状況下でのLCMの行動の体系的調査であり,誠実さと役に立つことのトレードオフを強調することである。
論文 参考訳(メタデータ) (2023-11-16T10:02:40Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。