論文の概要: MIRROR: Modular Internal Processing for Personalized Safety in LLM Dialogue
- arxiv url: http://arxiv.org/abs/2506.00430v2
- Date: Fri, 03 Oct 2025 17:42:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 14:21:29.774392
- Title: MIRROR: Modular Internal Processing for Personalized Safety in LLM Dialogue
- Title(参考訳): MIRROR:LLM対話におけるパーソナライズされた安全のためのモジュール内部処理
- Authors: Nicole Hsing,
- Abstract要約: 大規模言語モデルは、ユーザ固有の安全コンテキストを無視して、個人のマルチターン対話において有害なレコメンデーションを生成する。
MIRROR(Modular production- focused architecture)は、永続的、バウンドされた内部状態を通じてこれらの障害を防止するモジュール型アーキテクチャである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models frequently generate harmful recommendations in personal multi-turn dialogue by ignoring user-specific safety context, exhibiting sycophantic agreement, and compromising user safety for larger group preferences. We introduce MIRROR, a modular production-focused architecture that prevents these failures through a persistent, bounded internal state that preserves personal conversational information across conversational turns. Our dual-component design inspired by Dual Process Theory separates immediate response generation (Talker) from asynchronous deliberative processing (Thinker), which synthesizes parallel reasoning threads between turns with marginal latency. On the CuRaTe personalized safety benchmark, MIRROR-augmented models achieve a 21% relative improvement (69% to 84%) across seven diverse frontier models, with open-source Llama 4 and Mistral 3 variants surpassing both GPT-4o and Claude 3.7 Sonnet at only \$0.0028 to \$0.0172 additional cost per turn, narrowing the gap between affordable open-source models to frontier systems in the safety space. The modular architecture enables flexible deployment: full internal processing for affordable models or single-component configurations for expensive systems, democratizing access to safer, personalized AI.
- Abstract(参考訳): 大規模言語モデルは、ユーザ固有の安全コンテキストを無視し、サイコファン的合意を示し、より大きなグループ嗜好のためにユーザーの安全を妥協することにより、個人的多元対話において有害なレコメンデーションをしばしば生成する。
MIRRORはモジュール型生産中心のアーキテクチャで、永続的かつ有界な内部状態を通じてこれらの障害を防止し、会話のターンをまたいで個人的会話情報を保存する。
我々のデュアルコンポーネント設計は、デュアルプロセス理論にインスパイアされた、非同期な熟考処理(Thinker)から即時応答生成(Talker)を分離する。
CuRaTeのパーソナライズされた安全性ベンチマークでは、MIRRORの拡張されたモデルは、7つのフロンティアモデルに対して21%の相対的な改善(69%から84%)を達成し、オープンソースのLlama 4とMistral 3はGPT-4oとClaude 3.7をわずか0.0028から0.0172の追加コストで上回り、安全空間における安価なオープンソースモデルとフロンティアシステムの間のギャップを狭める。
安価なモデルのための完全な内部処理、高価なシステムのための単一コンポーネント構成、より安全でパーソナライズされたAIへのアクセスの民主化。
関連論文リスト
- Enhancing Goal-oriented Proactive Dialogue Systems via Consistency Reflection and Correction [14.520176577205754]
モデルに依存しない2段階の一貫性反射・補正フレームワークを提案する。
整合性反射の段階では、モデルが生成した応答と対話コンテキストの相違を反映するように促される。
整合性補正の段階では、モデルは対話コンテキストとより整合性のある応答を生成する。
論文 参考訳(メタデータ) (2025-06-16T11:15:21Z) - DialogueReason: Rule-Based RL Sparks Dialogue Reasoning in LLMs [54.4857963044859]
本稿では,モノローグ型推論モデルにおける失われた役割を明らかにする推論パラダイムであるDialogueReasonを提案する。
本研究は,モノログ推論パターンの分析と対話に基づく推論手法の開発から成っている。
論文 参考訳(メタデータ) (2025-05-11T16:39:58Z) - From Guessing to Asking: An Approach to Resolving the Persona Knowledge Gap in LLMs during Multi-Turn Conversations [11.958380211411386]
本研究では,ペルソナの知識ギャップ,モデルの内的理解と一貫性とパーソナライズされた会話に必要な知識との相違について紹介する。
本稿では,ペルソナの知識ギャップを動的に検出・解決する新しいフレームワークであるCPER(Conversation Preference Elicitation and Recommendation)を提案する。
CPERは、嗜好抽出のためのコンテキスト理解モジュール、不確実性を計測し、ペルソナアライメントを精製する動的フィードバックモジュール、蓄積されたユーザコンテキストに基づいて応答を適応するペルソナ駆動応答生成モジュールの3つの主要なモジュールで構成されている。
論文 参考訳(メタデータ) (2025-03-16T15:55:29Z) - In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents [70.12342024019044]
大規模言語モデル(LLM)は、オープンエンド対話において大きな進歩を遂げているが、関連する情報の保持と取得ができないため、その有効性は制限されている。
本稿では,長期対話エージェントのための新しいメカニズムであるリフレクティブメモリ管理(RMM)を提案する。
RMMは、LongMemEvalデータセットのメモリ管理なしでベースラインよりも10%以上精度が向上している。
論文 参考訳(メタデータ) (2025-03-11T04:15:52Z) - REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation [51.97224538045096]
本稿では、21日間のメッセージアプリ対話のコーパスであるREALTALKを紹介する。
EI属性とペルソナの整合性を比較し,現実世界の対話による課題を理解する。
その結果,モデルでは対話履歴のみからユーザをシミュレートすることが困難であり,特定のユーザチャットの微調整はペルソナのエミュレーションを改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T20:29:01Z) - Decoding the Flow: CauseMotion for Emotional Causality Analysis in Long-form Conversations [22.000288488609733]
causeMotionは、Retrieval-Augmented Generation (RAG)とMultimodal fusionを基盤とした、長期にわたる感情因果推論フレームワークである。
RAGとスライディングウィンドウ機構を統合することで、コンテキストに関連のある対話セグメントを効果的に検索し、活用する。
CauseMotionと統合されたGLM-4は、オリジナルのモデルよりも因果精度が8.7%向上し、GPT-4oを1.2%上回る。
公開されているDiaASQデータセット上で、Co causedMotion-GLM-4は、精度、F1スコア、因果推論精度の最先端結果を達成する。
論文 参考訳(メタデータ) (2025-01-01T09:10:32Z) - Reasoning in Conversation: Solving Subjective Tasks through Dialogue
Simulation for Large Language Models [56.93074140619464]
本稿では,対話シミュレーションによる主観的課題の解決に焦点を当てたRiC(Reasoning in Conversation)を提案する。
RiCのモチベーションは、チェーン・オブ・ソート・スタイルの合理性を提供するのではなく、対話をシミュレートすることで有用な文脈情報をマイニングすることである。
GPT-4、ChatGPT、OpenChatなど、APIベースのLLMとオープンソースのLLMの両方を12のタスクで評価する。
論文 参考訳(メタデータ) (2024-02-27T05:37:10Z) - MindDial: Belief Dynamics Tracking with Theory-of-Mind Modeling for Situated Neural Dialogue Generation [62.44907105496227]
MindDialは、Mind-of-mindモデリングで位置決め自由形式の応答を生成できる、新しい対話型フレームワークである。
本研究では、話者の信念と話者の聴取者の信念を予測できる明示的なマインドモジュールを導入する。
筆者らのフレームワークは,提案手法と微調整モデルの両方に適用され,共通地盤アライメントとネゴシエーションの両方を含むシナリオで評価される。
論文 参考訳(メタデータ) (2023-06-27T07:24:32Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z) - Coreference-aware Double-channel Attention Network for Multi-party
Dialogue Reading Comprehension [7.353227696624305]
MDRC(Multi-party Dialogue Reading)に挑戦する
MDRCは、複数のインターロケータ間の対話に基づく抽出読解タスクの略である。
推論能力を高めるためのコア推論対応アテンションモデリング手法を提案する。
論文 参考訳(メタデータ) (2023-05-15T05:01:29Z) - Dial2vec: Self-Guided Contrastive Learning of Unsupervised Dialogue
Embeddings [41.79937481022846]
教師なし対話の埋め込みを学習するタスクについて紹介する。
事前学習された単語や文の埋め込みや、事前学習された言語モデルによるエンコーディングといったトライアル的なアプローチは、実現可能であることが示されている。
本稿では,Dial2vecという自己指導型コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-27T11:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。