Fugu-MT 論文翻訳(概要): Human-Inspired Context-Selective Multimodal Memory for Social Robots

論文の概要: Human-Inspired Context-Selective Multimodal Memory for Social Robots

arxiv url: http://arxiv.org/abs/2604.12081v1
Date: Mon, 13 Apr 2026 21:42:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-15 19:11:32.132229
Title: Human-Inspired Context-Selective Multimodal Memory for Social Robots
Title（参考訳）: 社会ロボットのためのヒューマンインスパイアされたコンテキスト選択型マルチモーダルメモリ
Authors: Hangyeol Kang, Slava Voloshynovskiy, Nadia Magnenat Thalmann,
Abstract要約: 記憶は社会的相互作用の基本であり、人間が有意義な過去の経験を思い出し、文脈に基づいて行動に適応することができる。本稿では,テキストと視覚の両方をキャプチャし,検索するソーシャルロボットのためのコンテキスト選択型マルチモーダルメモリアーキテクチャを提案する。これらの記憶を個々のユーザと関連付けることで、より自然な対話をソーシャルにパーソナライズすることが可能になる。
参考スコア（独自算出の注目度）: 5.903669314878555
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Memory is fundamental to social interaction, enabling humans to recall meaningful past experiences and adapt their behavior accordingly based on the context. However, most current social robots and embodied agents rely on non-selective, text-based memory, limiting their ability to support personalized, context-aware interactions. Drawing inspiration from cognitive neuroscience, we propose a context-selective, multimodal memory architecture for social robots that captures and retrieves both textual and visual episodic traces, prioritizing moments characterized by high emotional salience or scene novelty. By associating these memories with individual users, our system enables socially personalized recall and more natural, grounded dialogue. We evaluate the selective storage mechanism using a curated dataset of social scenarios, achieving a Spearman correlation of 0.506, surpassing human consistency ($ρ=0.415$) and outperforming existing image memorability models. In multimodal retrieval experiments, our fusion approach improves Recall@1 by up to 13\% over unimodal text or image retrieval. Runtime evaluations confirm that the system maintains real-time performance. Qualitative analyses further demonstrate that the proposed framework produces richer and more socially relevant responses than baseline models. This work advances memory design for social robots by bridging human-inspired selectivity and multimodal retrieval to enhance long-term, personalized human-robot interaction.
Abstract（参考訳）: 記憶は社会的相互作用の基本であり、人間が有意義な過去の経験を思い出し、文脈に基づいて行動に適応することができる。しかし、現在の社会ロボットやエンボディエージェントは、非選択的でテキストベースのメモリに依存しており、パーソナライズされたコンテキスト対応のインタラクションをサポートする能力を制限する。認知神経科学からインスピレーションを得た社会ロボットのためのコンテキスト選択型マルチモーダルメモリアーキテクチャを提案する。これらの記憶を個々のユーザと関連付けることで、より自然な対話をソーシャルにパーソナライズすることが可能になる。本研究では,社会シナリオのキュレートしたデータセットを用いて選択記憶機構の評価を行い,0.506のスピアマン相関を達成し,人間の一貫性(ρ=0.415$)を超え,既存の画像記憶可能性モデルよりも優れていた。マルチモーダル検索実験では,リコール@1を非モーダルテキストや画像検索で最大13倍改善する。実行時評価は、システムがリアルタイムのパフォーマンスを維持することを確認します。定性的な分析により,提案フレームワークはベースラインモデルよりもリッチで社会的に関係のある応答を生成することが示された。この研究は、人間にインスパイアされた選択性とマルチモーダル検索をブリッジすることで、社会ロボットのメモリ設計を進め、長期的、パーソナライズされた人間とロボットのインタラクションを強化する。

関連論文リスト

PERMA: Benchmarking Personalized Memory Agents via Event-Driven Preference and Realistic Task Environments [72.02445514666428]
静的な嗜好リコールを超えてペルマの一貫性を評価するためのベンチマークであるPERMAを紹介する。 PerMAは、複数のセッションとドメインにまたがる時間的に順序付けられたインタラクションイベントと、時間とともに好みに関連するクエリで構成されている。実験により、関連するインタラクションをリンクすることで、高度なメモリシステムはより正確な好みを抽出し、トークン消費を減らすことができることが示された。
論文参考訳（メタデータ） (2026-03-24T14:04:11Z)
Memory-guided Prototypical Co-occurrence Learning for Mixed Emotion Recognition [56.00118641432005]
本稿では,感情共起パターンを明示的にモデル化するメモリ誘導型プロトタイプ共起学習フレームワークを提案する。人間の認知記憶システムに触発されて,意味レベルの共起関係を抽出するメモリ検索戦略を導入する。本モデルは感情分布予測のための感情情報表現を学習する。
論文参考訳（メタデータ） (2026-02-24T04:11:25Z)
OP-Bench: Benchmarking Over-Personalization for Memory-Augmented Personalized Conversational Agents [55.27061195244624]
オーバーパーソナライゼーションを3つのタイプに分類する。エージェントは不要な場合でも、ユーザメモリを取得およびオーバーアタッチする傾向があります。我々の研究は、メモリ拡張対話システムにおいて、より制御可能で適切なパーソナライズに向けた最初の一歩を踏み出した。
論文参考訳（メタデータ） (2026-01-20T08:27:13Z)
A Multimodal Neural Network for Recognizing Subjective Self-Disclosure Towards Social Robots [3.786116485837376]
我々は、感情認識文献のモデルに基づく、カスタムマルチモーダルアテンションネットワークを開発する。我々は,新たな損失関数であるクロスエントロピー損失の尺度を構築し,この問題の分類版と回帰版の両方を改善した。
論文参考訳（メタデータ） (2025-08-14T16:50:51Z)
Whom to Respond To? A Transformer-Based Model for Multi-Party Social Robot Interaction [4.276453870301421]
社会ロボットの意思決定プロセスを改善するために,トランスフォーマーを用いたマルチタスク学習フレームワークを提案する。我々は、視線ずれなどの現実世界の複雑さを捉えた、新しい多人数HRIデータセットを構築した。本研究は,自然とコンテキストを意識した多人数インタラクションを実現できる社会知能型社会ロボットの開発に寄与する。
論文参考訳（メタデータ） (2025-07-15T03:42:14Z)
Building Knowledge from Interactions: An LLM-Based Architecture for Adaptive Tutoring and Social Reasoning [42.09560737219404]
大規模言語モデルは、人間のようなコミュニケーションにおいて有望であるが、そのスタンドアロンの使用は、メモリ制約とコンテキストの不整合によって妨げられている。この研究は、LLMに基づく社会的・タスク指向のヒューマンロボットインタラクションにおける自律的意思決定を強化する、マルチモーダルで認知にインスパイアされたフレームワークを提示する。自律性とパーソナライゼーションをさらに強化するために,体験の選択,保存,検索を行うメモリシステムを導入する。
論文参考訳（メタデータ） (2025-04-02T10:45:41Z)
MemoryBank: Enhancing Large Language Models with Long-Term Memory [7.654404043517219]
本稿では,大規模言語モデルに適した新しいメモリ機構であるMemoryBankを提案する。 MemoryBankは、モデルが関連するメモリを呼び出し、継続的なメモリ更新を通じて継続的に進化し、過去のインタラクションから情報を合成することで、ユーザの個性に適応することを可能にする。
論文参考訳（メタデータ） (2023-05-17T14:40:29Z)
Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文参考訳（メタデータ） (2022-07-20T13:37:57Z)
Data-driven emotional body language generation for social robotics [58.88028813371423]
社会ロボティクスでは、人間型ロボットに感情の身体的表現を生成する能力を与えることで、人間とロボットの相互作用とコラボレーションを改善することができる。我々は、手作業で設計されたいくつかの身体表現から学習する深層学習データ駆動フレームワークを実装した。評価実験の結果, 生成した表現の人間同型とアニマシーは手作りの表現と異なる認識が得られなかった。
論文参考訳（メタデータ） (2022-05-02T09:21:39Z)
Cognitive architecture aided by working-memory for self-supervised multi-modal humans recognition [54.749127627191655]
人間パートナーを認識する能力は、パーソナライズされた長期的な人間とロボットの相互作用を構築するための重要な社会的スキルです。ディープラーニングネットワークは最先端の結果を達成し,そのような課題に対処するための適切なツールであることが実証された。 1つの解決策は、ロボットに自己スーパービジョンで直接の感覚データから学習させることである。
論文参考訳（メタデータ） (2021-03-16T13:50:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。