Fugu-MT 論文翻訳(概要): Using Vision-Language Models as Proxies for Social Intelligence in Human-Robot Interaction

論文の概要: Using Vision-Language Models as Proxies for Social Intelligence in Human-Robot Interaction

arxiv url: http://arxiv.org/abs/2512.07177v1
Date: Mon, 08 Dec 2025 05:17:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:40.197069
Title: Using Vision-Language Models as Proxies for Social Intelligence in Human-Robot Interaction
Title（参考訳）: 視覚言語モデルを用いた人間-ロボットインタラクションにおけるソーシャルインテリジェンスのためのプロキシ
Authors: Fanjun Bu, Melina Tsai, Audrey Tjokro, Tapomayukh Bhattacharjee, Jorge Ortiz, Wendy Ju,
Abstract要約: 我々は、人々が非言語的行動を通じて対話の準備ができていることを示す方法と、専門家ウィザードがエンゲージメントをガイドするためにこれらの手がかりをどのように利用するかを分析する。本稿では,より重いビデオベース視覚言語モデル (VLM) クエリを選択的にトリガーするために,軽量な知覚検出器を用いた2段階パイプラインを提案する。本研究は,VLMを社会的推論のプロキシとして選択的に使用することにより,社会的に応答するロボットの動作が可能であることを示唆している。
参考スコア（独自算出の注目度）: 16.018759023223502
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Robots operating in everyday environments must often decide when and whether to engage with people, yet such decisions often hinge on subtle nonverbal cues that unfold over time and are difficult to model explicitly. Drawing on a five-day Wizard-of-Oz deployment of a mobile service robot in a university cafe, we analyze how people signal interaction readiness through nonverbal behaviors and how expert wizards use these cues to guide engagement. Motivated by these observations, we propose a two-stage pipeline in which lightweight perceptual detectors (gaze shifts and proxemics) are used to selectively trigger heavier video-based vision-language model (VLM) queries at socially meaningful moments. We evaluate this pipeline on replayed field interactions and compare two prompting strategies. Our findings suggest that selectively using VLMs as proxies for social reasoning enables socially responsive robot behavior, allowing robots to act appropriately by attending to the cues people naturally provide in real-world interactions.
Abstract（参考訳）: 日常の環境で動くロボットは、いつ、いつ、人々と関わるべきかを判断しなければならないが、そのような決定はしばしば、時間とともに広がり、明確にモデル化することが難しい微妙な非言語的手がかりにヒンジする。大学カフェで5日間のWizard-of-Ozによるモバイルサービスロボットのデプロイに基づいて、非言語的行動を通じて人々がインタラクションの準備ができているか、専門家のウィザードがこれらの手がかりを使ってエンゲージメントをガイドする方法について分析する。これらの観測から得られた2段階のパイプラインでは、社会的に意味のある瞬間に、より重いビデオベースの視覚言語モデル(VLM)クエリを選択的にトリガーするために、軽量な知覚検出器(注視シフトとプロキシ)が使用される。我々は、このパイプラインを再生されたフィールド相互作用で評価し、2つのプロンプト戦略を比較した。本研究は, VLMを社会的推論のプロキシとして選択的に使用することにより, ロボットの行動が社会的に応答し, 人間が自然に現実世界の対話に参画することで, ロボットが適切に行動できることを示唆する。

関連論文リスト

Whom to Respond To? A Transformer-Based Model for Multi-Party Social Robot Interaction [4.276453870301421]
社会ロボットの意思決定プロセスを改善するために,トランスフォーマーを用いたマルチタスク学習フレームワークを提案する。我々は、視線ずれなどの現実世界の複雑さを捉えた、新しい多人数HRIデータセットを構築した。本研究は,自然とコンテキストを意識した多人数インタラクションを実現できる社会知能型社会ロボットの開発に寄与する。
論文参考訳（メタデータ） (2025-07-15T03:42:14Z)
Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models [81.55156507635286]
脚のついたロボットは、様々な環境をナビゲートし、幅広い障害を克服することができる。現在の学習手法は、人間の監督を伴わずに、予期せぬ状況の長い尾への一般化に苦慮することが多い。本稿では,VLM-Predictive Control (VLM-PC) というシステムを提案する。
論文参考訳（メタデータ） (2024-07-02T21:00:30Z)
Comparing Apples to Oranges: LLM-powered Multimodal Intention Prediction in an Object Categorization Task [17.190635800969456]
本稿では,ロボットとの協調的な対象分類タスクにおいて,人間の意図を推定するために,Large Language Modelsを用いて検討する。本研究では, ユーザの身振り, 身振り, 表情などの非言語的手がかりを, ユーザの意図を予測するために, 環境状態やユーザの言葉的手がかりと統合する, 新たなマルチモーダルアプローチを提案する。
論文参考訳（メタデータ） (2024-04-12T12:15:14Z)
MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文参考訳（メタデータ） (2024-03-05T18:08:45Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
Real-time Addressee Estimation: Deployment of a Deep-Learning Model on the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文参考訳（メタデータ） (2023-11-09T13:01:21Z)
What Matters to You? Towards Visual Representation Alignment for Robot Learning [81.30964736676103]
人のために運用する場合、ロボットはエンドユーザーの好みに合わせて報酬を最適化する必要がある。本稿では、視覚的表現アライメント問題を解決するためのRAPL(Representation-Aligned Preference-based Learning)を提案する。
論文参考訳（メタデータ） (2023-10-11T23:04:07Z)
A MultiModal Social Robot Toward Personalized Emotion Interaction [1.2183405753834562]
本研究では,ロボットインタラクションポリシーを強化するために,強化学習を伴うマルチモーダルヒューマンロボットインタラクション(HRI)フレームワークを実証する。目標は、ロボットがより自然で魅力的なHRIフレームワークを作れるように、このフレームワークを社会シナリオに適用することだ。
論文参考訳（メタデータ） (2021-10-08T00:35:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。