論文の概要: MENTOR: A Metacognition-Driven Self-Evolution Framework for Uncovering and Mitigating Implicit Risks in LLMs on Domain Tasks
- arxiv url: http://arxiv.org/abs/2511.07107v1
- Date: Mon, 10 Nov 2025 13:51:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.283624
- Title: MENTOR: A Metacognition-Driven Self-Evolution Framework for Uncovering and Mitigating Implicit Risks in LLMs on Domain Tasks
- Title(参考訳): MENTOR:LLMにおけるメタ認知駆動型自己進化フレームワーク
- Authors: Liang Shan, Kaicheng Shen, Wen Wu, Zhenyu Ying, Chaochao Lu, Guangze Ye, Liang He,
- Abstract要約: 現在のアライメントの取り組みは、主に偏見、ヘイトスピーチ、暴力のような明確なリスクをターゲットにしている。
本稿では,大規模言語モデルにおける暗黙的リスクの解消と軽減を目的とした,メタ認知駆動型セルフエボリューティオンフレームワークMENTORを提案する。
我々は、ドメイン固有のリスク識別を強化するために、教育、財務、管理にまたがる9000のリスククエリをサポートするデータセットをリリースする。
- 参考スコア(独自算出の注目度): 17.598413159363393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring the safety and value alignment of large language models (LLMs) is critical for their deployment. Current alignment efforts primarily target explicit risks such as bias, hate speech, and violence. However, they often fail to address deeper, domain-specific implicit risks and lack a flexible, generalizable framework applicable across diverse specialized fields. Hence, we proposed MENTOR: A MEtacognition-driveN self-evoluTion framework for uncOvering and mitigating implicit Risks in LLMs on Domain Tasks. To address the limitations of labor-intensive human evaluation, we introduce a novel metacognitive self-assessment tool. This enables LLMs to reflect on potential value misalignments in their responses using strategies like perspective-taking and consequential thinking. We also release a supporting dataset of 9,000 risk queries spanning education, finance, and management to enhance domain-specific risk identification. Subsequently, based on the outcomes of metacognitive reflection, the framework dynamically generates supplementary rule knowledge graphs that extend predefined static rule trees. This enables models to actively apply validated rules to future similar challenges, establishing a continuous self-evolution cycle that enhances generalization by reducing maintenance costs and inflexibility of static systems. Finally, we employ activation steering during inference to guide LLMs in following the rules, a cost-effective method to robustly enhance enforcement across diverse contexts. Experimental results show MENTOR's effectiveness: In defensive testing across three vertical domains, the framework substantially reduces semantic attack success rates, enabling a new level of implicit risk mitigation for LLMs. Furthermore, metacognitive assessment not only aligns closely with baseline human evaluators but also delivers more thorough and insightful analysis of LLMs value alignment.
- Abstract(参考訳): 大きな言語モデル(LLM)の安全性と価値の整合性を保証することが、そのデプロイメントに不可欠である。
現在のアライメントの取り組みは、主に偏見、ヘイトスピーチ、暴力のような明確なリスクをターゲットにしている。
しかし、それらはドメイン固有の深い暗黙のリスクに対処できず、様々な専門分野にまたがる柔軟な、一般化可能なフレームワークを欠いていることが多い。
そこで我々は,LLMにおけるドメインタスクに対する暗黙的リスクの排除と軽減を目的とした,メタ認知駆動型セルフエボリューティオンフレームワーク MENTORを提案する。
労働集約的評価の限界に対処するために,新しいメタ認知自己評価ツールを導入する。
これにより、LLMは視点取りや連続的な思考といった戦略を使って、その応答における潜在的な価値の相違を反映することができる。
また、教育、財務、管理にまたがる9000のリスククエリのデータセットもリリースし、ドメイン固有のリスク識別を強化しています。
その後、メタ認知的リフレクションの結果に基づき、このフレームワークは予め定義された静的なルール木を拡張する補足ルール知識グラフを動的に生成する。
これにより、モデルは将来の同様の課題に積極的に検証されたルールを適用することができ、メンテナンスコストと静的システムの柔軟性を低減して一般化を促進する継続的自己進化サイクルを確立することができる。
最後に,多種多様な文脈にまたがる強制力を高めるためのコスト効率の手法であるLCMを誘導するために,推論中にアクティベーションステアリングを採用する。
3つの垂直領域にわたる防御テストにおいて、このフレームワークはセマンティックアタックの成功率を大幅に低減し、LCMの新たなレベルの暗黙的リスク軽減を可能にする。
さらに, メタ認知評価は, 基本的ヒト評価と密接に一致するだけでなく, LLM値アライメントのより徹底的で洞察力のある分析も提供する。
関連論文リスト
- Anchoring Refusal Direction: Mitigating Safety Risks in Tuning via Projection Constraint [52.878820730054365]
インストラクションファインチューニング(IFT)は,大規模言語モデル(LLM)の能力向上のための効果的なポストトレーニング戦略として広く採用されている。
LLMの内部機構に関する最近の研究は、隠蔽状態における拒絶方向(r方向)を同定し、拒絶行動の制御において重要な役割を担っている。
このようなドリフトを緩和するため,提案手法では,各トレーニングサンプルの隠れ状態のr方向への投射の大きさを規則化する投射制約損失項を導入する。
論文 参考訳(メタデータ) (2025-09-08T15:24:33Z) - ROSE: Toward Reality-Oriented Safety Evaluation of Large Language Models [60.28667314609623]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいてブラックボックスコンポーネントとしてますます多くデプロイされている。
我々は,多目的強化学習を用いて敵のLDMを微調整する新しいフレームワークであるReal-Oriented Safety Evaluation (ROSE)を提案する。
論文 参考訳(メタデータ) (2025-06-17T10:55:17Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Graphormer-Guided Task Planning: Beyond Static Rules with LLM Safety Perception [4.424170214926035]
本稿では,大規模言語モデルと構造化安全モデリングを組み合わせたリスク対応タスク計画フレームワークを提案する。
提案手法は,空間的および文脈的危険因子を抽出し,動的セマンティック安全グラフを構築する。
既定の安全性制約に依存する既存の手法とは異なり、我々のフレームワークはコンテキスト認識型リスク認識モジュールを導入している。
論文 参考訳(メタデータ) (2025-03-10T02:43:54Z) - Quantifying Risk Propensities of Large Language Models: Ethical Focus and Bias Detection through Role-Play [4.343589149005485]
大きな言語モデル(LLM)がより普及するにつれて、その安全性、倫理、潜在的なバイアスに対する懸念が高まっている。
本研究は,認知科学からLLMまで,Domain-Specific Risk-Taking(DOSPERT)尺度を革新的に適用する。
本研究では,LLMの倫理的リスク態度を深く評価するために,倫理的意思決定リスク態度尺度(EDRAS)を提案する。
論文 参考訳(メタデータ) (2024-10-26T15:55:21Z) - Current state of LLM Risks and AI Guardrails [0.0]
大規模言語モデル(LLM)はますます洗練され、安全性と信頼性が最優先されるセンシティブなアプリケーションに広くデプロイされるようになる。
これらのリスクは、LSMを望ましい行動と整合させ、潜在的な害を軽減するために、"ガードレール"の開発を必要とする。
本研究は,LLMの展開に伴うリスクを調査し,ガードレールの実装とモデルアライメント技術に対する現在のアプローチを評価する。
論文 参考訳(メタデータ) (2024-06-16T22:04:10Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。