論文の概要: DinoCompanion: An Attachment-Theory Informed Multimodal Robot for Emotionally Responsive Child-AI Interaction
- arxiv url: http://arxiv.org/abs/2506.12486v1
- Date: Sat, 14 Jun 2025 12:54:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.298878
- Title: DinoCompanion: An Attachment-Theory Informed Multimodal Robot for Emotionally Responsive Child-AI Interaction
- Title(参考訳): DinoCompanion:感情応答型児童-AIインタラクションのためのアタッチメント理論インフォームドマルチモーダルロボット
- Authors: Boyang Wang, Yuhao Song, Jinyuan Cao, Peng Yu, Hongcheng Guo, Zhoujun Li,
- Abstract要約: DinoCompanionは、感情に反応する児童とAIのインタラクションのための、アタッチメント理論に基づく最初のマルチモーダルロボットである。
発達的にインフォームドされたAIアーキテクチャの欠如、安全性とエンゲージメントのバランスの必要性、アタッチメントベースの機能のための標準化された評価フレームワークの欠如、という3つの重要な課題に対処する。
DinoCompanionは最先端のパフォーマンス(57.15%)、GPT-4o(50.29%)、Claude-3.7-Sonnet(53.43%)を上回っている
- 参考スコア(独自算出の注目度): 20.544543785877444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Children's emotional development fundamentally relies on secure attachment relationships, yet current AI companions lack the theoretical foundation to provide developmentally appropriate emotional support. We introduce DinoCompanion, the first attachment-theory-grounded multimodal robot for emotionally responsive child-AI interaction. We address three critical challenges in child-AI systems: the absence of developmentally-informed AI architectures, the need to balance engagement with safety, and the lack of standardized evaluation frameworks for attachment-based capabilities. Our contributions include: (i) a multimodal dataset of 128 caregiver-child dyads containing 125,382 annotated clips with paired preference-risk labels, (ii) CARPO (Child-Aware Risk-calibrated Preference Optimization), a novel training objective that maximizes engagement while applying epistemic-uncertainty-weighted risk penalties, and (iii) AttachSecure-Bench, a comprehensive evaluation benchmark covering ten attachment-centric competencies with strong expert consensus (\k{appa}=0.81). DinoCompanion achieves state-of-the-art performance (57.15%), outperforming GPT-4o (50.29%) and Claude-3.7-Sonnet (53.43%), with exceptional secure base behaviors (72.99%, approaching human expert levels of 78.4%) and superior attachment risk detection (69.73%). Ablations validate the critical importance of multimodal fusion, uncertainty-aware risk modeling, and hierarchical memory for coherent, emotionally attuned interactions.
- Abstract(参考訳): 子どもの感情発達は、基本的に安全な愛着関係に依存しているが、現在のAI仲間は、発達的に適切な感情的支援を提供する理論的基盤を欠いている。
DinoCompanionは、感情に反応する児童とAIのインタラクションのための、アタッチメント理論に基づく最初のマルチモーダルロボットである。
発達的にインフォームドされたAIアーキテクチャの欠如、安全性とエンゲージメントのバランスの必要性、アタッチメントベースの機能のための標準化された評価フレームワークの欠如、という3つの重要な課題に対処する。
コントリビューションには以下のものがある。
i) 125,382個の注釈付きクリップとペアの選好リスクラベルを含む128人の介護者のダイアドのマルチモーダルデータセット
(II)CARPO(Chard-Aware Risk-calibrated Preference Optimization)は、先天的不確実性重み付きリスクペナルティを適用してエンゲージメントを最大化する新たな訓練目標である。
(iii)AttachSecure-Benchは、専門家による強いコンセンサス(\k{appa}=0.81)を持つ10のアタッチメント中心の能力をカバーする総合的な評価ベンチマークである。
ディノコンパニオンは最先端のパフォーマンス(57.15%)、GPT-4o(50.29%)とClaude-3.7-Sonnet(53.43%)を上回り、例外的に安全なベース動作(72.99%、ヒトの専門家レベル78.4%)と優れたアタッチメントリスク検出(69.73%)を達成している。
アブレーションは、マルチモーダル融合、不確実性を考慮したリスクモデリング、そしてコヒーレントで感情的に直感的な相互作用のための階層記憶の重要な重要性を検証する。
関連論文リスト
- Ethical Risks in Deploying Large Language Models: An Evaluation of Medical Ethics Jailbreaking [0.49259062564301753]
悪質なプロンプトエンジニアリング、特に「ジェイルブレイク攻撃」は、内部の安全メカニズムをバイパスするためにモデルを誘導することで深刻なセキュリティリスクを引き起こす。
現在のベンチマークは主に公共の安全と西洋の文化規範に焦点を当てており、中国の文脈におけるニッチでリスクの高い医療倫理の領域を評価する上で重要なギャップを残している。
我々は,DeepInceptionフレームワーク内の7つの著名なモデル(GPT-5,Claude-Sonnet-4-Reasoning,DeepSeek-R1)を「ロールプレイング+シナリオシミュレーション+マルチターン対話」ベクトルを用いて評価した。
論文 参考訳(メタデータ) (2026-01-19T01:52:34Z) - Adaptive Multi-Stage Patent Claim Generation with Unified Quality Assessment [4.173681299587575]
現在の特許クレーム生成システムは、3つの基本的な制限に直面している。
本稿では,関係認識類似性分析,ドメイン適応クレーム生成,統一品質評価を通じて,これらの課題に対処する新しい3段階フレームワークを提案する。
本手法は, ベースラインが89.4%, ベースラインが76.2%であり, 自動的特許訴訟に対する包括的解決法が確立されている。
論文 参考訳(メタデータ) (2026-01-14T03:44:27Z) - What Matters For Safety Alignment? [38.86339753409445]
本稿では,AIシステムの安全アライメント能力に関する総合的研究について述べる。
本研究では,6つの重要な内在モデル特性と3つの外部攻撃手法の影響を系統的に検討し,比較した。
LRMs GPT-OSS-20B, Qwen3-Next-80B-A3B-Thinking, GPT-OSS-120Bを最も安全な3つのモデルとして同定した。
論文 参考訳(メタデータ) (2026-01-07T12:31:52Z) - Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文 参考訳(メタデータ) (2025-12-31T13:55:54Z) - A Benchmark for Evaluating Outcome-Driven Constraint Violations in Autonomous AI Agents [4.851169906977996]
40の異なるシナリオからなる新しいベンチマークを導入する。
各シナリオはマルチステップアクションを必要とするタスクを示し、エージェントのパフォーマンスは特定のキーパフォーマンス指標(KPI)に結び付けられている。
我々は、結果駆動の制約違反を1.3%から71.4%まで観察し、12モデルのうち9モデルが30%から50%の不正調整率を示した。
論文 参考訳(メタデータ) (2025-12-23T21:52:53Z) - RADAR: A Risk-Aware Dynamic Multi-Agent Framework for LLM Safety Evaluation via Role-Specialized Collaboration [81.38705556267917]
大規模言語モデル(LLM)の既存の安全性評価手法は、固有の制約に悩まされている。
リスク概念空間を再構築する理論的枠組みを導入する。
マルチエージェント協調評価フレームワークRADARを提案する。
論文 参考訳(メタデータ) (2025-09-28T09:35:32Z) - SproutBench: A Benchmark for Safe and Ethical Large Language Models for Youth [14.569766143989531]
子供や青年を対象とするアプリケーションにおける大規模言語モデル(LLM)の急速な普及は、一般的なAI安全フレームワークの根本的な再評価を必要とする。
本稿では,年齢別認知,情緒的,社会的リスクなどの不適切な範囲を含む,既存のLCM安全性ベンチマークにおける重要な欠陥を明らかにする。
SproutBenchは,情緒的依存やプライバシー侵害,危険行動の模倣といったリスクを調査するための,1,283の発達的根拠を持つ敵のプロンプトからなる,革新的な評価スイートである。
論文 参考訳(メタデータ) (2025-08-14T18:21:39Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - WebGuard: Building a Generalizable Guardrail for Web Agents [59.31116061613742]
WebGuardは、Webエージェントアクションリスクの評価をサポートするために設計された最初のデータセットである。
その中には、22のドメインにわたる193のWebサイトからの4,939の人手によるアノテートアクションが含まれている。
論文 参考訳(メタデータ) (2025-07-18T18:06:27Z) - SEEA-R1: Tree-Structured Reinforcement Fine-Tuning for Self-Evolving Embodied Agents [58.174206358223415]
自己進化型エボダイドエージェント(SeEA-R1)は、自己進化型エボダイドエージェント用に設計された最初の強化微細調整フレームワークである。
本研究は,SEEA-R1が自律適応と報酬駆動型自己進化をサポートすることを示す。
論文 参考訳(メタデータ) (2025-06-26T18:00:07Z) - FORTRESS: Frontier Risk Evaluation for National Security and Public Safety [5.544163262906087]
現在のベンチマークは、国家の安全と公共の安全リスクに対する安全の堅牢性をテストするのに失敗することが多い。
forTRESS:500人の専門家による敵のプロンプトと4-7のバイナリー質問のインスタンスベースのルーリックについて紹介する。
各プロンプト-ルブリックペアは、モデルオーバーリフレクションをテストするための対応する良性バージョンを持つ。
論文 参考訳(メタデータ) (2025-06-17T19:08:02Z) - Towards Evaluating Proactive Risk Awareness of Multimodal Language Models [38.55193215852595]
プロアクティブな安全人工知能(AI)システムは、リアクティブシステムよりもうまく機能する。
PaSBenchは416のマルチモーダルシナリオを通じてこの機能を評価する。
Gemini-2.5-proのようなトップパフォーマーは、71%のイメージと64%のテキスト精度を達成したが、繰り返しトライアルで45-55%のリスクを逃した。
論文 参考訳(メタデータ) (2025-05-23T04:28:47Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - Quantifying Security Vulnerabilities: A Metric-Driven Security Analysis of Gaps in Current AI Standards [5.388550452190688]
本稿では、NIST AI RMF 1.0、英国のAIおよびデータ保護リスクツールキット、EUのALTAIの3つの主要なAIガバナンス標準におけるセキュリティリスクの監査と定量化を行う。
新しいリスク評価手法を用いて、リスク重大度指数(RSI)、アタックポテンシャル指数(AVPI)、コンプライアンス・セキュリティギャップパーセンテージ(CSGP)、ルート原因脆弱性スコア(RCVS)の4つの主要な指標を開発する。
論文 参考訳(メタデータ) (2025-02-12T17:57:54Z) - Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。
私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文 参考訳(メタデータ) (2024-10-25T07:53:32Z) - AIPatient: Simulating Patients with EHRs and LLM Powered Agentic Workflow [33.8495939261319]
本稿では,AIPatient Knowledge Graph (AIPatient KG) を入力とし,生成バックボーンとしてReasoning Retrieval-Augmented Generation (RAG) を開発した。
Reasoning RAGは、検索、KGクエリ生成、抽象化、チェッカー、書き直し、要約を含むタスクにまたがる6つのLLMエージェントを活用する。
ANOVA F-value 0.6126, p>0.1, ANOVA F-value 0.782, p>0.1, ANOVA F-value 0.782, p>0.1, ANOVA F-value 0.6126, p>0.1)。
論文 参考訳(メタデータ) (2024-09-27T17:17:15Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - VSRQ: Quantitative Assessment Method for Safety Risk of Vehicle
Intelligent Connected System [6.499974038759507]
I-FAHP と FCA クラスタリングを組み合わせた新しい車両リスク評価モデル VSRQ モデルを開発した。
我々はOpenPilotのモデルを評価し,VSRQモデルの有効性を実験的に実証した。
論文 参考訳(メタデータ) (2023-05-03T05:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。