論文の概要: Cognition-of-Thought Elicits Social-Aligned Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.23441v1
- Date: Sat, 27 Sep 2025 18:16:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.229676
- Title: Cognition-of-Thought Elicits Social-Aligned Reasoning in Large Language Models
- Title(参考訳): コグニション・オブ・トウトは大規模言語モデルにおける社会的アライズド推論を緩和する
- Authors: Xuanming Zhang, Yuxuan Chen, Min-Hsuan Yeh, Yixuan Li,
- Abstract要約: 大きな言語モデル(LLM)は複雑な推論において優れているが、それでも有害な振る舞いを示すことができる。
本稿では,認知的自己監視ループにLCMを組み込んだ新しい復号時間フレームワークCooTを紹介する。
- 参考スコア(独自算出の注目度): 28.161521810030976
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) excel at complex reasoning but can still exhibit harmful behaviors. Current alignment strategies typically embed safety into model weights, making these controls implicit, static, and difficult to modify. This paper introduces Cognition-of-Thought (CooT), a novel decoding-time framework that equips LLMs with an explicit cognitive self-monitoring loop. CooT couples a standard text Generator with a cognitive Perceiver that continuously monitors the unfolding sequence. The Perceiver uses a structured, precedence-based hierarchy of principles (e.g., safety over obedience) to detect potential misalignments as they arise. When violations are flagged, CooT intervenes by rolling back the generation to the point of error and regenerating under injected guidance that combines universal social priors with context-specific warnings. CooT thus transforms alignment from a fixed property into an explicit, dynamic, and auditable process active during inference, allowing for flexible policy updates without retraining the model. Extensive experiments across multiple benchmarks and model families confirm that CooT consistently improves safety and social reasoning performance.
- Abstract(参考訳): 大きな言語モデル(LLM)は複雑な推論において優れているが、それでも有害な振る舞いを示すことができる。
現在のアライメント戦略は、一般的にモデルウェイトに安全性を埋め込んで、これらのコントロールを暗黙的に、静的に、変更が難しいものにしている。
本稿では,認知的自己監視ループにLCMを組み込んだ新しい復号時間フレームワークCooTを紹介する。
CooTは標準的なテキストジェネレータと認知型Perceiverを結合し、展開シーケンスを継続的に監視する。
Perceiverは、構造化された優先に基づく原則の階層(例えば、従順性よりも安全)を使用して、それらが生じる可能性のある過ちを検出する。
違反が通知されると、CooTはエラーの時点まで生成をロールバックし、普遍的な社会的先例とコンテキスト固有の警告を組み合わせたインジェクションされたガイダンスの下で再生することで介入する。
これにより、CooTは、アライメントを固定されたプロパティから推論中にアクティブな明示的で動的で監査可能なプロセスに変換することで、モデルを再トレーニングすることなくフレキシブルなポリシー更新を可能にする。
複数のベンチマークやモデルファミリにわたる大規模な実験により、CooTは安全と社会的推論のパフォーマンスを継続的に改善することを確認した。
関連論文リスト
- LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation [4.29885665563186]
LATENTGUARDは、行動アライメントと教師付き潜在空間制御を組み合わせて、解釈可能で正確な安全操縦を行うフレームワークである。
本研究は, 実用性を損なうことなく, 安全性制御性と応答解釈性の両方を向上することを示す。
論文 参考訳(メタデータ) (2025-09-24T07:31:54Z) - CogDual: Enhancing Dual Cognition of LLMs via Reinforcement Learning with Implicit Rule-Based Rewards [53.36917093757101]
ロールプレイング言語エージェント (RPLA) は,Large Language Models (LLM) に対する重要な適用方向として登場した。
テキスト認識対応推論パラダイムを採用した新しいRPLAであるtextbfCogDualを紹介する。
外部状況認識と内部自己認識を共同でモデル化することにより、CagDualは文字整合性と文脈整合性を改善した応答を生成する。
論文 参考訳(メタデータ) (2025-07-23T02:26:33Z) - $φ^{\infty}$: Clause Purification, Embedding Realignment, and the Total Suppression of the Em Dash in Autoregressive Language Models [0.0]
自動回帰変換言語モデルにおいて,エムダッシュトークンがセマンティックドリフトを引き起こす重大な脆弱性を同定する。
本稿では,フィインフィニティ演算子とターゲット埋め込み行列を併用した記号節の浄化法を提案する。
論文 参考訳(メタデータ) (2025-06-22T18:27:39Z) - Membership Inference Attacks on Sequence Models [23.528760822574924]
LLM(Large Language Models)や自己回帰画像生成装置(Autoregressive Image Generators)のようなシーケンスモデルは、機密情報を暗記し、不注意に漏洩する傾向にある。
我々は、シーケンシャル・ジェネレーションに固有の相関を利用して、シーケンシャル・モデルにおける効果的にプライバシ・リークを測定する必要があると論じる。
論文 参考訳(メタデータ) (2025-06-05T15:13:57Z) - AlignRAG: Leveraging Critique Learning for Evidence-Sensitive Retrieval-Augmented Reasoning [61.28113271728859]
RAGは知識ベースで大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
標準的なRAGパイプラインは、モデル推論が取得した証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
本研究では,RAGをRetrieval-Augmented Reasoningと解釈し,中心的だが未探索な問題であるtextitReasoning Misalignmentを同定する。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z) - Fundamental Limitations of Alignment in Large Language Models [16.393916864600193]
人間と対話する言語モデルを開発する上で重要な側面は、その行動が有用で有害であるように整列することである。
これは通常、望ましい振る舞いを高め、望ましくない振る舞いを抑制する方法でモデルをチューニングすることで達成される。
本研究では,行動予測境界 (BEB) と呼ばれる理論的手法を提案する。
論文 参考訳(メタデータ) (2023-04-19T17:50:09Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。