論文の概要: Towards Multimodal Social Conversations with Robots: Using Vision-Language Models
- arxiv url: http://arxiv.org/abs/2507.19196v1
- Date: Fri, 25 Jul 2025 12:06:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.943082
- Title: Towards Multimodal Social Conversations with Robots: Using Vision-Language Models
- Title(参考訳): ロボットによるマルチモーダル社会会話を目指して--視覚言語モデルを用いて
- Authors: Ruben Janssens, Tony Belpaeme,
- Abstract要約: 視覚言語モデルは、自律型社会ロボットにとって十分に一般的な方法で、この広い範囲の視覚情報を処理できると主張している。
技術的課題が残るこの状況にそれらをどう適応させるかを説明し、評価プラクティスを簡潔に議論する。
- 参考スコア(独自算出の注目度): 0.034530027457861996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have given social robots the ability to autonomously engage in open-domain conversations. However, they are still missing a fundamental social skill: making use of the multiple modalities that carry social interactions. While previous work has focused on task-oriented interactions that require referencing the environment or specific phenomena in social interactions such as dialogue breakdowns, we outline the overall needs of a multimodal system for social conversations with robots. We then argue that vision-language models are able to process this wide range of visual information in a sufficiently general manner for autonomous social robots. We describe how to adapt them to this setting, which technical challenges remain, and briefly discuss evaluation practices.
- Abstract(参考訳): 大規模言語モデルは、社会ロボットにオープンドメインの会話を自律的に行う能力を与えている。
しかし、彼らは社会的相互作用を持つ複数のモダリティを利用するという、基本的な社会的スキルをいまだに欠いている。
これまでの研究は、対話のブレークダウンなどの社会的相互作用における環境や特定の現象の参照を必要とするタスク指向のインタラクションに重点を置いてきたが、ロボットとの対話のためのマルチモーダルシステムの全体的なニーズを概説した。
そして、視覚言語モデルは、自律型社会ロボットにとって十分に一般的な方法で、この広い範囲の視覚情報を処理できると主張している。
技術的課題が残るこの状況にそれらをどう適応させるかを説明し、評価プラクティスを簡潔に議論する。
関連論文リスト
- Whom to Respond To? A Transformer-Based Model for Multi-Party Social Robot Interaction [4.276453870301421]
社会ロボットの意思決定プロセスを改善するために,トランスフォーマーを用いたマルチタスク学習フレームワークを提案する。
我々は、視線ずれなどの現実世界の複雑さを捉えた、新しい多人数HRIデータセットを構築した。
本研究は,自然とコンテキストを意識した多人数インタラクションを実現できる社会知能型社会ロボットの開発に寄与する。
論文 参考訳(メタデータ) (2025-07-15T03:42:14Z) - Enhancing Explainability with Multimodal Context Representations for Smarter Robots [0.0]
人間とロボットのインタラクションの鍵となる問題は、ロボットが音声や視覚などのマルチモーダル入力を効果的に知覚し、推論できるようにすることである。
本稿では,言語と視覚の融合を改善するために,コンテキスト表現のための汎用的で説明可能なマルチモーダルフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-28T13:36:47Z) - Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding [85.63710017456792]
FuSeは、不均一なセンサのモダリティに対する微調整型ビズモータ一般政策を可能にする新しいアプローチである。
FuSeは視覚,触覚,音などのモーダル性に対して共同で推論を必要とする挑戦的なタスクを実行できることを示す。
実世界での実験では、FuSeisはすべての基準ラインと比較して成功率を20%以上引き上げることができた。
論文 参考訳(メタデータ) (2025-01-08T18:57:33Z) - Advancing Social Intelligence in AI Agents: Technical Challenges and Open Questions [67.60397632819202]
ソーシャルインテリジェントAIエージェント(Social-AI)の構築は、多分野、マルチモーダルな研究目標である。
我々は、社会AIを前進させるために、基礎となる技術的課題と、コンピューティングコミュニティ全体にわたる研究者のためのオープンな質問を特定します。
論文 参考訳(メタデータ) (2024-04-17T02:57:42Z) - Socially Pertinent Robots in Gerontological Healthcare [78.35311825198136]
本論文は,パリの保育所における患者と同伴者による2つの実験を通じて,社会的・対話的相互作用能力を備えたフルサイズのヒューマノイドロボットを用いて,この疑問に部分的に答えようとする試みである。
特に、ロボットの知覚とアクションスキルが環境の雑多さに対して堅牢であり、さまざまなインタラクションを扱うために柔軟である場合、ユーザーはこの技術を受け入れる。
論文 参考訳(メタデータ) (2024-04-11T08:43:37Z) - SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。
SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2024-02-20T14:02:45Z) - Developing Social Robots with Empathetic Non-Verbal Cues Using Large
Language Models [2.5489046505746704]
我々は,音声,行動(妊娠),表情,感情の4種類の共感的非言語的手がかりを社会ロボットで設計し,ラベル付けする。
予備的な結果は、ロボットの反応において「喜び」や「リリー」のような穏やかでポジティブな社会的感情の好みや、頻繁にうなずく動作など、異なるパターンが示される。
我々の研究は、言語と非言語の両方が社会的・共感的なロボットを作る上で不可欠な役割を強調し、人間とロボットの相互作用に関する将来の研究の基盤となる。
論文 参考訳(メタデータ) (2023-08-31T08:20:04Z) - Proceeding of the 1st Workshop on Social Robots Personalisation At the
crossroads between engineering and humanities (CONCATENATE) [37.838596863193565]
本ワークショップは,ロボット工学におけるパーソナライゼーションに関する学際的な議論を提起することを目的としている。
異なる分野の研究者を集結させ、パーソナライズのためのガイドラインを提案することを目的としている。
論文 参考訳(メタデータ) (2023-07-10T11:11:24Z) - Face-to-Face Contrastive Learning for Social Intelligence
Question-Answering [55.90243361923828]
マルチモーダル手法は多くのタスクで技術の状態を設定するが、複雑な対面会話のダイナミクスをモデル化することは困難である。
社会的相互作用をモデル化するグラフニューラルネットワークF2F-CLを提案する。
課題であるSocial-IQデータセットを実験的に評価し、最先端の結果を示す。
論文 参考訳(メタデータ) (2022-07-29T20:39:44Z) - SocialAI: Benchmarking Socio-Cognitive Abilities in Deep Reinforcement
Learning Agents [23.719833581321033]
人間との社会的相互作用に参加することができる、具体化された自律エージェントを構築することは、AIの主要な課題の1つだ。
人間レベルのAIを目指すためには、より広範な社会的スキルが必要である、と私たちは主張する。
DRLエージェントの社会的スキル獲得を評価するためのベンチマークであるSocialAIを提案する。
論文 参考訳(メタデータ) (2021-07-02T10:39:18Z) - Can You be More Social? Injecting Politeness and Positivity into
Task-Oriented Conversational Agents [60.27066549589362]
人間エージェントが使用する社会言語は、ユーザーの応答性の向上とタスク完了に関連しています。
このモデルは、ソーシャル言語理解要素で拡張されたシーケンスからシーケンスまでのディープラーニングアーキテクチャを使用する。
人的判断と自動言語尺度の両方を用いたコンテンツ保存と社会言語レベルの評価は,エージェントがより社会的に適切な方法でユーザの問題に対処できる応答を生成できることを示している。
論文 参考訳(メタデータ) (2020-12-29T08:22:48Z) - Spoken Language Interaction with Robots: Research Issues and
Recommendations, Report from the NSF Future Directions Workshop [0.819605661841562]
人間のニーズを満たすには、音声技術とユーザーエクスペリエンス設計における新しい課題に対処する必要がある。
大規模な再設計や大規模なトレーニングデータの収集なしに、より強力な適応手法が必要である。
ロボットはリアルタイムで動作するため、音声処理や言語処理も必要である。
論文 参考訳(メタデータ) (2020-11-11T03:45:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。