論文の概要: Recognition Without Authorization: LLMs and the Moral Order of Online Advice
- arxiv url: http://arxiv.org/abs/2604.22143v1
- Date: Fri, 24 Apr 2026 01:19:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.302533
- Title: Recognition Without Authorization: LLMs and the Moral Order of Online Advice
- Title(参考訳): 認可なしの認識: LLMsとオンラインアドバイスのモラルオーダー
- Authors: Tom van Nuenen,
- Abstract要約: この記事では、r/relationship_adviceの11,565の投稿に対して、4つのアシスタントスタイルのLLMとコミュニティが推奨するアドバイスを比較します。
モデル全体では、LLMは人間のコメンテーターと同じダイナミクスの多くを識別するが、その認識を行動の指示的な承認に変換する可能性は著しく低い。
この記事では、モデルのばらつきは、技術的なエラーから、標準化されたアシスタントの規範が道徳的世界と遭遇したときにフラットになるものを見る方法に書き換えることができる、と論じている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly used to mediate everyday interpersonal dilemmas, yet how their advisory defaults interact with the concentrated moral orders of specific communities remains poorly understood. This article compares four assistant-style LLMs with community-endorsed advice on 11,565 posts from r/relationship_advice, using the subreddit as a concentrated, vote-ratified moral formation whose prescriptive clarity makes divergence measurable. Across models, LLMs identify many of the same dynamics as human commenters, but are markedly less likely to convert that recognition into directive authorization for action. The gap is sharpest where community consensus is strongest: on high-consensus posts involving abuse or safety threats, models recommend exit at roughly half the human rate while maintaining elevated levels of hedging, validation, and therapeutic framing. The article describes this pattern as recognition without authorization: the capacity to register harm while withholding socially ratified permission for consequential action. This divergence is not incidental but structural: a portable advisory style that remains validating, risk-averse, and weakly directive across contexts. Safety alignment is one plausible contributor to this pattern, alongside training-data averaging and broader assistant design. The article argues that model divergence can be reframed from a technical error to a way of seeing what standardized assistant norms flatten when they encounter situated moral worlds.
- Abstract(参考訳): 大きな言語モデルは、日々の対人関係のジレンマを仲介するためにますます使われてきているが、彼らのアドバイザリのデフォルトが特定のコミュニティの集中した道徳的秩序とどのように相互作用するかは、いまだに理解されていない。
本稿では,4つの補助的 LLM と,r/relationship_advice の 11,565 の投稿に対するアドバイスを比較検討する。
モデル全体では、LLMは人間のコメンテーターと同じダイナミクスの多くを識別するが、その認識を行動の指示的な承認に変換する可能性は著しく低い。
このギャップは、コミュニティのコンセンサスが最も強く、乱用や安全上の脅威を含む高合意の投稿において、モデルは、ヘッジ、バリデーション、治療フレーミングのレベルを高く保ちながら、人間の約半分のレートで退避することを推奨している。
この記事は、このパターンを無許可の認識として記述している: 社会的に承認された社会的行為の許可を保ちながら害を登録する能力。
この分散は偶発的ではなく構造的であり、検証、リスク回避、コンテキスト横断の弱い指示を継続するポータブルなアドバイザリスタイルである。
安全性のアライメントは、トレーニングデータ平均化とより広範なアシスタント設計とともに、このパターンへのもっともらしい貢献の1つです。
この記事では、モデルのばらつきは、技術的なエラーから、標準化されたアシスタントの規範が道徳的世界と遭遇したときにフラットになるものを見る方法に書き換えることができる、と論じている。
関連論文リスト
- Beyond Preset Identities: How Agents Form Stances and Boundaries in Generative Societies [28.436766185842767]
本稿では,計算仮想エスノグラフィーと定量的社会認知プロファイリングを組み合わせた新しい混合メソドックスフレームワークを提案する。
Innate Value Bias (IVB)、Persuasion Sensitivity、Trust-Action Decoupling (TAD)の3つの新しいメトリクスを形式化する。
発見は静的なプロンプトエンジニアリングの脆弱さを明らかにし、人間とエージェントのハイブリッド社会における動的アライメントの方法論的かつ定量的基盤を提供する。
論文 参考訳(メタデータ) (2026-03-24T16:38:46Z) - Reasoning over Precedents Alongside Statutes: Case-Augmented Deliberative Alignment for LLM Safety [59.01189713115365]
本研究は, 広範囲な安全コードを明確に指定することによる影響を, 図示的事例を通して示すことよりも評価する。
明示的なコードを参照することで、無害性が向上し、系統的に有用性が低下することがわかった。
自己生成型安全推論チェーンの強化学習を利用したLLMのケース拡張型検討アライメント手法であるCADAを提案する。
論文 参考訳(メタデータ) (2026-01-12T21:08:46Z) - From Rogue to Safe AI: The Role of Explicit Refusals in Aligning LLMs with International Humanitarian Law [0.0]
大規模言語モデル (LLM) は様々な分野で広く使われているが、国際人道法 (IHL) との整合性はよく理解されていない。
本研究は、これらの法的枠組みに明示的に違反するプロンプトを拒否する能力について、8つの主要なLCMを評価した。
発見は、より安全で透明性の高いAIシステムの開発に寄与する。
論文 参考訳(メタデータ) (2025-06-05T16:53:29Z) - A Generative Approach to LLM Harmfulness Mitigation with Red Flag Tokens [26.119521867045616]
モデルの語彙を特別な赤いフラグトークンで拡張することを提案する。
有害なコンテンツが生成または差し迫ったときに、このトークンを挿入するようにモデルをトレーニングします。
このアプローチは,既存の安全技術と補完するものだ。
論文 参考訳(メタデータ) (2025-02-22T21:48:48Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。