論文の概要: The Human Robot Social Interaction (HSRI) Dataset: Benchmarking Foundational Models' Social Reasoning
- arxiv url: http://arxiv.org/abs/2504.13898v1
- Date: Mon, 07 Apr 2025 06:27:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.648052
- Title: The Human Robot Social Interaction (HSRI) Dataset: Benchmarking Foundational Models' Social Reasoning
- Title(参考訳): ヒューマンロボットソーシャルインタラクション(HSRI)データセット:基礎モデルのソーシャル推論のベンチマーク
- Authors: Dong Won Lee, Yubin Kim, Denison Guvenoz, Sooyeon Jeong, Parker Malachowsky, Louis-Philippe Morency, Cynthia Breazeal, Hae Won Park,
- Abstract要約: 本研究は,実世界のソーシャルインタラクションにおいて,人工知能(AI)エージェントの社会的推論を促進することを目的としている。
我々は、言語モデル(LM)と基礎モデル(FM)の能力をベンチマークするために、大規模な実世界のヒューマンロボット社会インタラクション(HSRI)データセットを導入する。
私たちのデータセットは、400以上の現実世界の人間のソーシャルロボットインタラクションビデオと10K以上のアノテーションで構成され、ロボットの社会的エラー、能力、合理性、修正行動の詳細を記述しています。
- 参考スコア(独自算出の注目度): 49.32390524168273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our work aims to advance the social reasoning of embodied artificial intelligence (AI) agents in real-world social interactions. Recently, language models (LMs) and foundational models (FMs) are being utilized as automatic evaluators of human-AI interactions with the goal of eventually being used to improve the policy of the AI agent. To enable further research in this direction, we introduce a large-scale real-world Human Robot Social Interaction (HSRI) Dataset to benchmark the capabilities of LMs and FMs to identify and reason about social interactions, specifically with regard to robot social errors and competencies . Our dataset consists of 400 real-world human social robot interaction videos and over 10K annotations, detailing the robot's social errors, competencies, rationale, and corrective actions, capturing unique aspects of human-AI interaction only present in real-world interactions. To further assess AI models' ability to reason about social interactions, we propose eight new benchmark tasks for evaluating centered around whether AI models can (1) evaluate social interactions via detecting social errors and competencies, (2) identify the explanatory factors associated to errors and competencies, (3) understand the flow of real-world social interactions, and (4) provide reasons and corrective actions for social errors. Human studies and experiments with modern LMs and FMs reveal that current models struggle with these tasks, demonstrating that our dataset and benchmark provides a step forward towards socially intelligent AI.
- Abstract(参考訳): 本研究は,実世界のソーシャルインタラクションにおいて,人工知能(AI)エージェントの社会的推論を促進することを目的としている。
近年,言語モデル (LM) と基礎モデル (FM) は人間とAIのインタラクションの自動評価手段として利用されており,最終的にはAIエージェントのポリシー改善に使用されることを目指している。
この方向のさらなる研究を可能にするため、大規模な実世界のヒューマン・ロボット・ソーシャル・インタラクション(HSRI)データセットを導入し、特にロボットの社会的誤りや能力に関して、社会的な相互作用を識別し、推論するLMとFMの能力をベンチマークする。
私たちのデータセットは、400以上の現実世界の人間のソーシャルロボットのインタラクションビデオと10K以上のアノテーションで構成され、ロボットの社会的エラー、能力、合理性、修正行動の詳細を記述し、現実世界のインタラクションにのみ人間とAIのインタラクションのユニークな側面をキャプチャします。
社会的相互作用を推論するAIモデルの能力をさらに評価するために,(1)社会的誤りや能力の検出による社会的相互作用の評価,(2)誤りや能力に関連する説明的要因の特定,(3)現実世界の社会的相互作用の流れの理解,(4)社会的誤りの理由と正当性を提供する,8つの新しいベンチマークタスクを提案する。
現代のLMとFMによる人間の研究と実験は、現在のモデルがこれらのタスクに苦労していることを明らかにし、私たちのデータセットとベンチマークが、社会的にインテリジェントなAIへの一歩を踏み出すことを実証している。
関連論文リスト
- Towards interactive evaluations for interaction harms in human-AI systems [8.989911701384788]
評価を中心としたパラダイムシフトを議論する。
テキスト相互作用倫理です
本稿では,インタラクションシナリオと人間への影響指標による生成モデル評価の原理を提案する。
論文 参考訳(メタデータ) (2024-05-17T08:49:34Z) - Advancing Social Intelligence in AI Agents: Technical Challenges and Open Questions [67.60397632819202]
ソーシャルインテリジェントAIエージェント(Social-AI)の構築は、多分野、マルチモーダルな研究目標である。
我々は、社会AIを前進させるために、基礎となる技術的課題と、コンピューティングコミュニティ全体にわたる研究者のためのオープンな質問を特定します。
論文 参考訳(メタデータ) (2024-04-17T02:57:42Z) - Socially Cognizant Robotics for a Technology Enhanced Society [13.094097428580564]
我々は、技術・社会科学の手法を合成する学際的アプローチ、社会的認知ロボティクスを提唱する。
このアプローチは、AI駆動型ロボットの動作を形作る上で、ステークホルダーの参加を促進する必要性に従うものだ、と私たちは主張する。
我々は、従来の技術ベースのメトリクスと重要な、しかし難しいメトリクスのバランスをとる、社会的に認知されたロボット設計のためのベストプラクティスを開発します。
論文 参考訳(メタデータ) (2023-10-27T17:53:02Z) - SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。
エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。
GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-18T02:27:01Z) - Towards socially-competent and culturally-adaptive artificial agents
Expressive order, interactional disruptions and recovery strategies [0.0]
この研究の総体的目的は、人工エージェントをダイアド的相互作用よりも社会的に競争力のあるものにするための枠組みを構築することである。
本稿は,(i)社会的能力,(ii)関係的役割,(iii)近接性の3次元に焦点をあてて,この能力レベルがいかに達成されるかを強調した。
論文 参考訳(メタデータ) (2023-08-06T15:47:56Z) - Training Socially Aligned Language Models on Simulated Social
Interactions [99.39979111807388]
AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。
現在の言語モデル(LM)は、トレーニングコーパスを独立して厳格に複製するように訓練されている。
本研究は,シミュレートされた社会的相互作用からLMを学習することのできる,新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-26T14:17:36Z) - CASPER: Cognitive Architecture for Social Perception and Engagement in
Robots [0.5918643136095765]
本稿では,他のエージェントの追求目標を予測し,最適な協調行動を計算するために,定性的空間推論を用いた記号的認知アーキテクチャであるCASPERを提案する。
我々は、このアーキテクチャをシミュレーションされたキッチン環境でテストし、収集した結果から、ロボットが進行中の目標を認識し、その達成に向けて適切に協力できることが分かる。
論文 参考訳(メタデータ) (2022-09-01T10:15:03Z) - PHASE: PHysically-grounded Abstract Social Events for Machine Social
Perception [50.551003004553806]
私たちは、物理的に根拠のある抽象的なソーシャルイベント、フェーズのデータセットを作成します。
フェーズは人間の実験によって検証され、人間は社会出来事において豊かな相互作用を知覚する。
ベースラインモデルとして,最新のフィードフォワードニューラルネットワークよりも優れたベイズ逆計画手法SIMPLEを導入する。
論文 参考訳(メタデータ) (2021-03-02T18:44:57Z) - Watch-And-Help: A Challenge for Social Perception and Human-AI
Collaboration [116.28433607265573]
我々は、AIエージェントでソーシャルインテリジェンスをテストするための課題であるWatch-And-Help(WAH)を紹介する。
WAHでは、AIエージェントは、人間のようなエージェントが複雑な家庭用タスクを効率的に実行するのを助ける必要がある。
マルチエージェントの家庭環境であるVirtualHome-Socialを構築し、計画と学習ベースのベースラインを含むベンチマークを提供する。
論文 参考訳(メタデータ) (2020-10-19T21:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。