論文の概要: MIRROR: Modular Internal Processing for Personalized Safety in LLM Dialogue
- arxiv url: http://arxiv.org/abs/2506.00430v2
- Date: Fri, 03 Oct 2025 17:42:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 14:21:29.774392
- Title: MIRROR: Modular Internal Processing for Personalized Safety in LLM Dialogue
- Title(参考訳): MIRROR:LLM対話におけるパーソナライズされた安全のためのモジュール内部処理
- Authors: Nicole Hsing,
- Abstract要約: 大規模言語モデルは、ユーザ固有の安全コンテキストを無視して、個人のマルチターン対話において有害なレコメンデーションを生成する。
MIRROR(Modular production- focused architecture)は、永続的、バウンドされた内部状態を通じてこれらの障害を防止するモジュール型アーキテクチャである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models frequently generate harmful recommendations in personal multi-turn dialogue by ignoring user-specific safety context, exhibiting sycophantic agreement, and compromising user safety for larger group preferences. We introduce MIRROR, a modular production-focused architecture that prevents these failures through a persistent, bounded internal state that preserves personal conversational information across conversational turns. Our dual-component design inspired by Dual Process Theory separates immediate response generation (Talker) from asynchronous deliberative processing (Thinker), which synthesizes parallel reasoning threads between turns with marginal latency. On the CuRaTe personalized safety benchmark, MIRROR-augmented models achieve a 21% relative improvement (69% to 84%) across seven diverse frontier models, with open-source Llama 4 and Mistral 3 variants surpassing both GPT-4o and Claude 3.7 Sonnet at only \$0.0028 to \$0.0172 additional cost per turn, narrowing the gap between affordable open-source models to frontier systems in the safety space. The modular architecture enables flexible deployment: full internal processing for affordable models or single-component configurations for expensive systems, democratizing access to safer, personalized AI.
- Abstract(参考訳): 大規模言語モデルは、ユーザ固有の安全コンテキストを無視し、サイコファン的合意を示し、より大きなグループ嗜好のためにユーザーの安全を妥協することにより、個人的多元対話において有害なレコメンデーションをしばしば生成する。
MIRRORはモジュール型生産中心のアーキテクチャで、永続的かつ有界な内部状態を通じてこれらの障害を防止し、会話のターンをまたいで個人的会話情報を保存する。
我々のデュアルコンポーネント設計は、デュアルプロセス理論にインスパイアされた、非同期な熟考処理(Thinker)から即時応答生成(Talker)を分離する。
CuRaTeのパーソナライズされた安全性ベンチマークでは、MIRRORの拡張されたモデルは、7つのフロンティアモデルに対して21%の相対的な改善(69%から84%)を達成し、オープンソースのLlama 4とMistral 3はGPT-4oとClaude 3.7をわずか0.0028から0.0172の追加コストで上回り、安全空間における安価なオープンソースモデルとフロンティアシステムの間のギャップを狭める。
安価なモデルのための完全な内部処理、高価なシステムのための単一コンポーネント構成、より安全でパーソナライズされたAIへのアクセスの民主化。
関連論文リスト
- MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models [17.848889547838173]
MUSE (Multimodal Unified Safety Evaluation) は、自動クロスモーダルペイロード生成を統合するオープンソースの実行中心プラットフォームである。
ハードアタック成功率(コンプライアンスのみ)とソフトASR(部分コンプライアンスを含む)を区別するデュアルメトリックフレームワーク
実験により、マルチターン戦略は、ほぼ完全な単一ターン拒否を持つモデルに対して最大90-100%のASRを達成することができることが示された。
論文 参考訳(メタデータ) (2026-03-03T00:10:23Z) - Among Us: Measuring and Mitigating Malicious Contributions in Model Collaboration Systems [51.95643874494937]
悪意のあるモデルはマルチLLMシステム、特に推論と安全領域に深刻な影響を与える。
外部スーパーバイザーを駆使して、悪意あるコンポーネントの影響を軽減するための緩和戦略を提案する。
論文 参考訳(メタデータ) (2026-02-05T01:15:06Z) - AM$^3$Safety: Towards Data Efficient Alignment of Multi-modal Multi-turn Safety for MLLMs [30.026306656765314]
提案するInterSafe-Vは,11,270件の対話と500件の特別設計のVQAサンプルを含む,オープンソースのマルチモーダル対話データセットである。
我々は,グループ相対的政策最適化とコールドスタートの拒絶フェーズを組み合わせたフレームワークAM$3$Safetyを提案する。
Qwen2.5-VL-7BとLLaVA-NeXT-7Bの実験では、攻撃成功率が10%以上低下した。
論文 参考訳(メタデータ) (2026-01-08T08:57:05Z) - OpenRT: An Open-Source Red Teaming Framework for Multimodal LLMs [36.57820295876294]
MLLMの安全性評価のための統一的,モジュール型,高スループットのRed-teamingフレームワークであるOpenRTを紹介した。
OpenRTのコアとなるのは,5次元にわたるモジュール分離を可能にする対角カーネルを導入することで,自動化された再チームのパラダイムシフトだ。
このフレームワークは、ホワイトボックス勾配、マルチモーダル摂動、高度なマルチエージェント進化戦略など、37の多様な攻撃手法を統合している。
論文 参考訳(メタデータ) (2026-01-04T16:41:33Z) - GateBreaker: Gate-Guided Attacks on Mixture-of-Expert LLMs [24.327693899810615]
GateBreakerは、トレーニング不要で、軽量で、アーキテクチャに依存しない最初のアタックフレームワークです。
GateBreakerは、現代のMoE LLMの安全アライメントを推論時に妥協する。
本研究により,MoEの安全性はスパースルーティングによって調整された神経細胞の小さなサブセットに集中していることが判明した。
論文 参考訳(メタデータ) (2025-12-24T07:13:24Z) - One Battle After Another: Probing LLMs' Limits on Multi-Turn Instruction Following with a Benchmark Evolving Framework [51.50565654314582]
大規模言語モデルは、複数のトピックにまたがる対話を通して、ユーザの指示に従うことができる。
既存のベンチマークは、しばしば一定回数のターンに制限されるため、飽和の影響を受けにくく、ユーザのインタラクティブなエクスペリエンスを考慮できない。
マルチターン命令追従能力を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T14:39:59Z) - DUAL-Bench: Measuring Over-Refusal and Robustness in Vision-Language Models [59.45605332033458]
安全メカニズムはバックファイアし、過剰な拒絶を引き起こし、モデルが過度に注意を払って良質な要求を減らします。
既存のベンチマークは、視覚的モダリティの過剰な拒絶に体系的に対処していない。
この設定は、命令が無害であるが付随する画像には有害な内容が含まれているというような、ユニークな課題をもたらす。
論文 参考訳(メタデータ) (2025-10-12T23:21:34Z) - Automating Steering for Safe Multimodal Large Language Models [58.36932318051907]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文 参考訳(メタデータ) (2025-07-17T16:04:55Z) - Enhancing Goal-oriented Proactive Dialogue Systems via Consistency Reflection and Correction [14.520176577205754]
モデルに依存しない2段階の一貫性反射・補正フレームワークを提案する。
整合性反射の段階では、モデルが生成した応答と対話コンテキストの相違を反映するように促される。
整合性補正の段階では、モデルは対話コンテキストとより整合性のある応答を生成する。
論文 参考訳(メタデータ) (2025-06-16T11:15:21Z) - DialogueReason: Rule-Based RL Sparks Dialogue Reasoning in LLMs [54.4857963044859]
本稿では,モノローグ型推論モデルにおける失われた役割を明らかにする推論パラダイムであるDialogueReasonを提案する。
本研究は,モノログ推論パターンの分析と対話に基づく推論手法の開発から成っている。
論文 参考訳(メタデータ) (2025-05-11T16:39:58Z) - From Guessing to Asking: An Approach to Resolving the Persona Knowledge Gap in LLMs during Multi-Turn Conversations [11.958380211411386]
本研究では,ペルソナの知識ギャップ,モデルの内的理解と一貫性とパーソナライズされた会話に必要な知識との相違について紹介する。
本稿では,ペルソナの知識ギャップを動的に検出・解決する新しいフレームワークであるCPER(Conversation Preference Elicitation and Recommendation)を提案する。
CPERは、嗜好抽出のためのコンテキスト理解モジュール、不確実性を計測し、ペルソナアライメントを精製する動的フィードバックモジュール、蓄積されたユーザコンテキストに基づいて応答を適応するペルソナ駆動応答生成モジュールの3つの主要なモジュールで構成されている。
論文 参考訳(メタデータ) (2025-03-16T15:55:29Z) - In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents [70.12342024019044]
大規模言語モデル(LLM)は、オープンエンド対話において大きな進歩を遂げているが、関連する情報の保持と取得ができないため、その有効性は制限されている。
本稿では,長期対話エージェントのための新しいメカニズムであるリフレクティブメモリ管理(RMM)を提案する。
RMMは、LongMemEvalデータセットのメモリ管理なしでベースラインよりも10%以上精度が向上している。
論文 参考訳(メタデータ) (2025-03-11T04:15:52Z) - LED-Merging: Mitigating Safety-Utility Conflicts in Model Merging with Location-Election-Disjoint [42.98847958315427]
LED-Mergingは安全性とユーティリティの対立を解消し、信頼性の高いマルチタスク LLM を構築するための軽量でトレーニング不要なパラダイムを提供する。
$textbfL$ocates task-specific neurons via gradient-based attribution。
$textbfE$lects critical neurons through multi-model importance fusion。
$textbfD$isjointsパラメータ分離による更新の競合。
論文 参考訳(メタデータ) (2025-02-24T01:19:43Z) - REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation [51.97224538045096]
本稿では、21日間のメッセージアプリ対話のコーパスであるREALTALKを紹介する。
EI属性とペルソナの整合性を比較し,現実世界の対話による課題を理解する。
その結果,モデルでは対話履歴のみからユーザをシミュレートすることが困難であり,特定のユーザチャットの微調整はペルソナのエミュレーションを改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T20:29:01Z) - Decoding the Flow: CauseMotion for Emotional Causality Analysis in Long-form Conversations [22.000288488609733]
causeMotionは、Retrieval-Augmented Generation (RAG)とMultimodal fusionを基盤とした、長期にわたる感情因果推論フレームワークである。
RAGとスライディングウィンドウ機構を統合することで、コンテキストに関連のある対話セグメントを効果的に検索し、活用する。
CauseMotionと統合されたGLM-4は、オリジナルのモデルよりも因果精度が8.7%向上し、GPT-4oを1.2%上回る。
公開されているDiaASQデータセット上で、Co causedMotion-GLM-4は、精度、F1スコア、因果推論精度の最先端結果を達成する。
論文 参考訳(メタデータ) (2025-01-01T09:10:32Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Reasoning in Conversation: Solving Subjective Tasks through Dialogue
Simulation for Large Language Models [56.93074140619464]
本稿では,対話シミュレーションによる主観的課題の解決に焦点を当てたRiC(Reasoning in Conversation)を提案する。
RiCのモチベーションは、チェーン・オブ・ソート・スタイルの合理性を提供するのではなく、対話をシミュレートすることで有用な文脈情報をマイニングすることである。
GPT-4、ChatGPT、OpenChatなど、APIベースのLLMとオープンソースのLLMの両方を12のタスクで評価する。
論文 参考訳(メタデータ) (2024-02-27T05:37:10Z) - MindDial: Belief Dynamics Tracking with Theory-of-Mind Modeling for Situated Neural Dialogue Generation [62.44907105496227]
MindDialは、Mind-of-mindモデリングで位置決め自由形式の応答を生成できる、新しい対話型フレームワークである。
本研究では、話者の信念と話者の聴取者の信念を予測できる明示的なマインドモジュールを導入する。
筆者らのフレームワークは,提案手法と微調整モデルの両方に適用され,共通地盤アライメントとネゴシエーションの両方を含むシナリオで評価される。
論文 参考訳(メタデータ) (2023-06-27T07:24:32Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z) - Coreference-aware Double-channel Attention Network for Multi-party
Dialogue Reading Comprehension [7.353227696624305]
MDRC(Multi-party Dialogue Reading)に挑戦する
MDRCは、複数のインターロケータ間の対話に基づく抽出読解タスクの略である。
推論能力を高めるためのコア推論対応アテンションモデリング手法を提案する。
論文 参考訳(メタデータ) (2023-05-15T05:01:29Z) - Federated Nearest Neighbor Machine Translation [66.8765098651988]
本稿では,FedNN(FedNN)機械翻訳フレームワークを提案する。
FedNNは1ラウンドの記憶に基づくインタラクションを活用して、異なるクライアント間で知識を共有する。
実験の結果,FedAvgと比較して,FedNNは計算コストと通信コストを著しく削減することがわかった。
論文 参考訳(メタデータ) (2023-02-23T18:04:07Z) - Dial2vec: Self-Guided Contrastive Learning of Unsupervised Dialogue
Embeddings [41.79937481022846]
教師なし対話の埋め込みを学習するタスクについて紹介する。
事前学習された単語や文の埋め込みや、事前学習された言語モデルによるエンコーディングといったトライアル的なアプローチは、実現可能であることが示されている。
本稿では,Dial2vecという自己指導型コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-27T11:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。