Fugu-MT 論文翻訳(概要): Teaching Robots to Interpret Social Interactions through Lexically-guided Dynamic Graph Learning

論文の概要: Teaching Robots to Interpret Social Interactions through Lexically-guided Dynamic Graph Learning

arxiv url: http://arxiv.org/abs/2604.10895v1
Date: Mon, 13 Apr 2026 01:56:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-14 20:13:16.270984
Title: Teaching Robots to Interpret Social Interactions through Lexically-guided Dynamic Graph Learning
Title（参考訳）: 語彙誘導型動的グラフ学習によるロボットによる社会的相互作用の理解
Authors: Tongfei Bian, Mathieu Chollet, Tanaya Guha,
Abstract要約: ユーザの内的状態(レイテンシ)と行動(観測可能な状態)のダイナミックな関係をモデル化することにより、ロボットがそのような社会的知性に恵まれる方法について検討する。我々の前提は、これらの状態は同じ社会的認知過程から発生し、動的に相互に影響を与えることである。我々は,状態間の動的関係を明示的にモデル化する,新しいマルチタスク学習フレームワーク textbfSocialLDG を提案する。
参考スコア（独自算出の注目度）: 7.393097938991832
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: For a robot to be called socially intelligent, it must be able to infer users internal states from their current behaviour, predict the users future behaviour, and if required, respond appropriately. In this work, we investigate how robots can be endowed with such social intelligence by modelling the dynamic relationship between user's internal states (latent) and actions (observable state). Our premise is that these states arise from the same underlying socio-cognitive process and influence each other dynamically. Drawing inspiration from theories in Cognitive Science, we propose a novel multi-task learning framework, termed as \textbf{SocialLDG} that explicitly models the dynamic relationship among the states represent as six distinct tasks. Our framework uses a language model to introduce lexical priors for each task and employs dynamic graph learning to model task affinity evolving with time. SocialLDG has three advantages: First, it achieves state-of-the-art performance on two challenging human-robot social interaction datasets available publicly. Second, it supports strong task scalability by learning new tasks seamlessly without catastrophic forgetting. Finally, benefiting from explicit modelling task affinity, it offers insights on how different interactions unfolds in time and how the internal states and observable actions influence each other in human decision making.
Abstract（参考訳）: ロボットが社会的にインテリジェントであるためには、現在の動作からユーザの内部状態を推測し、将来の動作を予測し、必要に応じて適切な応答をする必要がある。本研究では,ユーザの内的状態(潜伏状態)と行動(観測可能な状態)の動的関係をモデル化することにより,ロボットにそのような社会的知性を持たせる方法について検討する。我々の前提は、これらの状態は同じ社会的認知過程から発生し、動的に相互に影響を与えることである。認知科学の理論からインスピレーションを得て,国家間の動的関係を6つの異なるタスクとして明示的にモデル化する,新しいマルチタスク学習フレームワークである「textbf{SocialLDG}」を提案する。我々のフレームワークは,言語モデルを用いて各タスクの語彙的先行情報を導入し,動的グラフ学習を用いてタスク親和性を時間とともにモデル化する。 SocialLDGには3つの利点がある。まず、人間とロボットの2つのソーシャルインタラクションデータセットを公開して、最先端のパフォーマンスを達成する。第二に、大きな忘れをすることなく、新しいタスクをシームレスに学習することで、強力なタスクスケーラビリティをサポートする。最後に、明示的なモデリングタスク親和性から恩恵を受け、異なるインタラクションが時間内でどのように展開され、内部状態と観察可能なアクションが人間の意思決定において相互にどのように影響するかについての洞察を提供する。

関連論文リスト

The Robot's Inner Critic: Self-Refinement of Social Behaviors through VLM-based Replanning [2.38295275136047]
CRISP(Critique-and-Replan for Interactive Social Presence)は、ロボットが自身の行動を批判し、再計画する自律的なフレームワークである。 CRISPは,(1)ロボットの記述ファイルを解析して可動関節と制約を抽出する。ロボットの構造ファイルだけを使って、さまざまなプラットフォーム上で微妙に異なる人間的な動きを生成できる。
論文参考訳（メタデータ） (2026-03-20T17:40:21Z)
Using Vision-Language Models as Proxies for Social Intelligence in Human-Robot Interaction [16.018759023223502]
我々は、人々が非言語的行動を通じて対話の準備ができていることを示す方法と、専門家ウィザードがエンゲージメントをガイドするためにこれらの手がかりをどのように利用するかを分析する。本稿では,より重いビデオベース視覚言語モデル (VLM) クエリを選択的にトリガーするために,軽量な知覚検出器を用いた2段階パイプラインを提案する。本研究は,VLMを社会的推論のプロキシとして選択的に使用することにより,社会的に応答するロボットの動作が可能であることを示唆している。
論文参考訳（メタデータ） (2025-12-08T05:17:58Z)
Diffusion-Based Imitation Learning for Social Pose Generation [0.0]
ロボットや仮想エージェントのような知的なエージェントは、人間と対話する複雑な社会的相互作用のダイナミクスを理解する必要がある。我々は、社会的相互作用における複数の個人の単一のモダリティ、ポーズ行動を用いて、その相互作用のファシリテータのための非言語的社会的手がかりを生成する方法について検討する。
論文参考訳（メタデータ） (2025-01-18T20:31:55Z)
Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文参考訳（メタデータ） (2024-10-15T07:35:51Z)
Comparing Apples to Oranges: LLM-powered Multimodal Intention Prediction in an Object Categorization Task [17.190635800969456]
本稿では,ロボットとの協調的な対象分類タスクにおいて,人間の意図を推定するために,Large Language Modelsを用いて検討する。本研究では, ユーザの身振り, 身振り, 表情などの非言語的手がかりを, ユーザの意図を予測するために, 環境状態やユーザの言葉的手がかりと統合する, 新たなマルチモーダルアプローチを提案する。
論文参考訳（メタデータ） (2024-04-12T12:15:14Z)
Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [50.01551945190676]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
論文参考訳（メタデータ） (2024-01-22T18:58:22Z)
Persistent-Transient Duality: A Multi-mechanism Approach for Modeling Human-Object Interaction [58.67761673662716]
人間は高度に適応可能で、異なるタスク、状況、状況を扱うために異なるモードを素早く切り替える。人間と物体の相互作用(HOI)において、これらのモードは、(1)活動全体に対する大規模な一貫した計画、(2)タイムラインに沿って開始・終了する小規模の子どもの対話的行動の2つのメカニズムに起因していると考えられる。本研究は、人間の動作を協調的に制御する2つの同時メカニズムをモデル化することを提案する。
論文参考訳（メタデータ） (2023-07-24T12:21:33Z)
Data-driven emotional body language generation for social robotics [58.88028813371423]
社会ロボティクスでは、人間型ロボットに感情の身体的表現を生成する能力を与えることで、人間とロボットの相互作用とコラボレーションを改善することができる。我々は、手作業で設計されたいくつかの身体表現から学習する深層学習データ駆動フレームワークを実装した。評価実験の結果, 生成した表現の人間同型とアニマシーは手作りの表現と異なる認識が得られなかった。
論文参考訳（メタデータ） (2022-05-02T09:21:39Z)
Cognitive architecture aided by working-memory for self-supervised multi-modal humans recognition [54.749127627191655]
人間パートナーを認識する能力は、パーソナライズされた長期的な人間とロボットの相互作用を構築するための重要な社会的スキルです。ディープラーニングネットワークは最先端の結果を達成し,そのような課題に対処するための適切なツールであることが実証された。 1つの解決策は、ロボットに自己スーパービジョンで直接の感覚データから学習させることである。
論文参考訳（メタデータ） (2021-03-16T13:50:24Z)
Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。 ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文参考訳（メタデータ） (2021-03-03T23:43:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。