論文の概要: Motion-to-Response Content Generation via Multi-Agent AI System with Real-Time Safety Verification
- arxiv url: http://arxiv.org/abs/2601.13589v1
- Date: Tue, 20 Jan 2026 04:42:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.15348
- Title: Motion-to-Response Content Generation via Multi-Agent AI System with Real-Time Safety Verification
- Title(参考訳): リアルタイム安全性検証によるマルチエージェントAIシステムによるモーション・トゥ・レスポンスコンテンツ生成
- Authors: HyeYoung Lee,
- Abstract要約: 本稿では、音声からの感情信号に基づいて、応答指向メディアコンテンツをリアルタイムで生成するマルチエージェント人工知能システムを提案する。
提案システムは,(1)CNNに基づく音響抽出機能を有する感情認識エージェント,(2)応答モードに感情をマッピングする反応ポリシー決定エージェント,(3)メディア制御パラメータを生成するコンテンツ生成エージェント,(4)年齢不適切性と刺激の制約を強制する安全性検証エージェントの4つの協調エージェントからなる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a multi-agent artificial intelligence system that generates response-oriented media content in real time based on audio-derived emotional signals. Unlike conventional speech emotion recognition studies that focus primarily on classification accuracy, our approach emphasizes the transformation of inferred emotional states into safe, age-appropriate, and controllable response content through a structured pipeline of specialized AI agents. The proposed system comprises four cooperative agents: (1) an Emotion Recognition Agent with CNN-based acoustic feature extraction, (2) a Response Policy Decision Agent for mapping emotions to response modes, (3) a Content Parameter Generation Agent for producing media control parameters, and (4) a Safety Verification Agent enforcing age-appropriateness and stimulation constraints. We introduce an explicit safety verification loop that filters generated content before output, ensuring compliance with predefined rules. Experimental results on public datasets demonstrate that the system achieves 73.2% emotion recognition accuracy, 89.4% response mode consistency, and 100% safety compliance while maintaining sub-100ms inference latency suitable for on-device deployment. The modular architecture enables interpretability and extensibility, making it applicable to child-adjacent media, therapeutic applications, and emotionally responsive smart devices.
- Abstract(参考訳): 本稿では、音声からの感情信号に基づいて、応答指向メディアコンテンツをリアルタイムで生成するマルチエージェント人工知能システムを提案する。
分類精度に主眼を置いている従来の音声感情認識研究とは異なり,本手法では,AIエージェントの構造的パイプラインを通じて,推定された感情状態が,安全で年齢に適合し,制御可能な応答内容に変換されることを強調している。
提案システムは,(1)CNNに基づく音響特徴抽出を伴う感情認識エージェント,(2)応答モードに感情をマッピングする反応ポリシー決定エージェント,(3)メディア制御パラメータを生成するコンテンツパラメータ生成エージェント,(4)年齢不適切性と刺激の制約を強制する安全検証エージェントの4種からなる。
我々は、出力前に生成されたコンテンツをフィルタし、あらかじめ定義されたルールに準拠する明示的な安全性検証ループを導入する。
公開データセットにおける実験結果から、デバイス上でのデプロイメントに適した100ms未満の推論レイテンシを維持しながら、73.2%の感情認識精度、89.4%の応答モード一貫性、100%の安全コンプライアンスを実現していることが示された。
モジュラーアーキテクチャは、解釈可能性と拡張性を可能にし、子供向けのメディア、治療応用、感情に反応するスマートデバイスに適用できる。
関連論文リスト
- Emotion-Driven Personalized Recommendation for AI-Generated Content Using Multi-Modal Sentiment and Intent Analysis [1.111322427650556]
本研究では,BERTをベースとしたCross-Modal Transformerを用いたマルチモーダル感情認識モデル(MMEI)を提案する。
MMEIは、事前訓練されたエンコーダViT、Wav2Vec2、BERTを介して、視覚的(表情)、聴覚的(音声)、テキスト的(内容または発話)モダリティを処理する。
MMEIモデルは、F1スコアの4.3%の改善と12.3%のクロスエントロピー損失を達成する。
論文 参考訳(メタデータ) (2025-11-25T17:52:22Z) - IRSDA: An Agent-Orchestrated Framework for Enterprise Intrusion Response [7.470506991479105]
侵入応答システムデジタルアシスタント(Intrusion Response System Digital Assistant、IRSDA)は、自律的でポリシーに準拠したサイバー防御を提供するために設計されたエージェントベースのフレームワークである。
IRSDAには、コンテキスト情報とAIベースの推論を統合して、システム誘導の侵入応答をサポートする知識駆動アーキテクチャが組み込まれている。
本研究は, 侵入応答における説明可能性, システム状態認識, 操作制御を重視した, サイバー防御に対するモジュール型エージェント駆動型アプローチの概要である。
論文 参考訳(メタデータ) (2025-11-24T19:21:09Z) - OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows [77.95511352806261]
VLM(Vision-Language Models)を利用したコンピュータ利用エージェントは、モバイルプラットフォームのようなデジタル環境を操作する上で、人間のような能力を実証している。
我々は,明示的なシステムレベルの違反を検出するための形式検証器と,文脈的リスクとエージェント行動を評価するコンテキスト判断器を組み合わせた,新しいハイブリッド安全検出フレームワークOS-Sentinelを提案する。
論文 参考訳(メタデータ) (2025-10-28T13:22:39Z) - Transparent, Evaluable, and Accessible Data Agents: A Proof-of-Concept Framework [0.0]
本稿では、AIエージェントの開発と評価のためのモジュール型コンポーネントベースのアーキテクチャについて述べる。
このシステムは、技術的でないユーザが複雑なデータウェアハウスと対話できるようにすることによって、データアクセシビリティにおける中核的な課題に対処する。
設計の要点は、多層推論フレームワークを通じて達成される透明な意思決定へのコミットメントである。
論文 参考訳(メタデータ) (2025-09-28T23:54:41Z) - Towards Robust Fact-Checking: A Multi-Agent System with Advanced Evidence Retrieval [1.515687944002438]
デジタル時代における誤報の急速な拡散は、世論に重大な課題をもたらす。
従来の人間主導のファクトチェック手法は信頼できるが、オンラインコンテンツの量と速度に苦慮している。
本稿では, 精度, 効率, 説明性を向上する自動ファクトチェックのための新しいマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2025-06-22T02:39:27Z) - Information Retrieval Induced Safety Degradation in AI Agents [52.15553901577888]
本研究では,検索アクセスの拡大がモデル信頼性,バイアス伝搬,有害コンテンツ生成に与える影響について検討した。
整列 LLM 上に構築された検索可能なエージェントは、検索なしでの無検閲モデルよりも安全でない振る舞いをすることが多い。
これらの発見は、検索可能でますます自律的なAIシステムの公正性と信頼性を確保するための堅牢な緩和戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-20T11:21:40Z) - Coverage-Guaranteed Speech Emotion Recognition via Calibrated Uncertainty-Adaptive Prediction Sets [0.0]
しばしば感情的な抑圧と突然のアウトバーストによって引き起こされる道路の怒りは、衝突や攻撃的な行動を引き起こすことによって道路の安全を著しく脅かす。
音声感情認識技術は、ネガティブな感情を早期に識別し、タイムリーな警告を発することにより、このリスクを軽減することができる。
本稿では,予測精度を統計的に厳格に保証するリスク制御予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-24T12:26:28Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Joint Sensing, Communication, and AI: A Trifecta for Resilient THz User
Experiences [118.91584633024907]
テラヘルツ(THz)無線システムに対する拡張現実(XR)体験を最適化するために、新しい共同センシング、通信、人工知能(AI)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-29T00:39:50Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。