論文の概要: GenComUI: Exploring Generative Visual Aids as Medium to Support Task-Oriented Human-Robot Communication
- arxiv url: http://arxiv.org/abs/2502.10678v1
- Date: Sat, 15 Feb 2025 05:31:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:08:54.906401
- Title: GenComUI: Exploring Generative Visual Aids as Medium to Support Task-Oriented Human-Robot Communication
- Title(参考訳): GenComUI:タスク指向のヒューマンロボットコミュニケーションを支援するメディアとして生成するビジュアルエイド
- Authors: Yate Ge, Meiying Li, Xipeng Huang, Yuanda Hu, Qi Wang, Xiaohua Sun, Weiwei Guo,
- Abstract要約: GenComUIは、言語タスクコミュニケーションをサポートするためにコンテキスト視覚援助を動的に生成する、大規模言語モデルを利用したシステムである。
その結果、生成的視覚支援は、連続的な視覚フィードバックを提供することで、音声によるタスクコミュニケーションを促進することが示され、自然かつ効果的なヒューマンロボットコミュニケーションが促進される。
- 参考スコア(独自算出の注目度): 7.272033004300993
- License:
- Abstract: This work investigates the integration of generative visual aids in human-robot task communication. We developed GenComUI, a system powered by large language models that dynamically generates contextual visual aids (such as map annotations, path indicators, and animations) to support verbal task communication and facilitate the generation of customized task programs for the robot. This system was informed by a formative study that examined how humans use external visual tools to assist verbal communication in spatial tasks. To evaluate its effectiveness, we conducted a user experiment (n = 20) comparing GenComUI with a voice-only baseline. The results demonstrate that generative visual aids, through both qualitative and quantitative analysis, enhance verbal task communication by providing continuous visual feedback, thus promoting natural and effective human-robot communication. Additionally, the study offers a set of design implications, emphasizing how dynamically generated visual aids can serve as an effective communication medium in human-robot interaction. These findings underscore the potential of generative visual aids to inform the design of more intuitive and effective human-robot communication, particularly for complex communication scenarios in human-robot interaction and LLM-based end-user development.
- Abstract(参考訳): 本研究では,人間ロボットのタスクコミュニケーションにおける生成的視覚援助の統合について検討する。
我々はGenComUIを開発した。これは大規模言語モデルを用いたシステムで、動的に文脈的視覚援助(地図アノテーション、経路指示、アニメーションなど)を生成し、言語的タスクコミュニケーションをサポートし、ロボットのためのカスタマイズされたタスクプログラムの作成を容易にする。
このシステムは、人間が空間的タスクにおける言語コミュニケーションを支援するために外部視覚ツールをどのように利用するかを調べるフォーマティブな研究によって知らされた。
その効果を評価するために,GenComUIと音声のみのベースラインを比較したユーザ実験(n = 20)を行った。
その結果、質的かつ定量的な分析を通じて、生成的視覚援助は、連続的な視覚フィードバックを提供することで、言語的タスクコミュニケーションを強化し、自然かつ効果的な人間とロボットのコミュニケーションを促進することが示されている。
さらに、この研究は、人間とロボットの相互作用における効果的なコミュニケーション媒体として、動的に生成される視覚援助がどのように機能するかを強調した、一連の設計上の意味を提供する。
これらの知見は、より直感的で効果的な人間とロボットのコミュニケーション、特に人間とロボットの相互作用やLLMベースのエンドユーザー開発における複雑なコミュニケーションシナリオの設計を知らせる生成的視覚支援の可能性を明らかにするものである。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation [70.52558242336988]
我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。
本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。
大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
論文 参考訳(メタデータ) (2024-09-13T18:28:12Z) - I-MPN: Inductive Message Passing Network for Efficient Human-in-the-Loop Annotation of Mobile Eye Tracking Data [4.487146086221174]
本稿では,移動眼球追跡設定における物体の自動認識のための新しい人間中心学習アルゴリズムを提案する。
提案手法は,オブジェクト検出器と空間的関係を考慮した誘導型メッセージパッシングネットワーク(I-MPN)をシームレスに統合し,ノードプロファイル情報を活用し,オブジェクト相関を捉える。
論文 参考訳(メタデータ) (2024-06-10T13:08:31Z) - Maia: A Real-time Non-Verbal Chat for Human-AI Interaction [10.580858171606167]
我々はテキストベースのヒューマン-AIインタラクションの代替案を提案する。
非言語的な視覚コミュニケーションを活用することで、表情、頭と体の動きを通じて、エンゲージメントを高めることを目指している。
我々のアプローチは芸術に特化せず、様々な絵画、アニメーション、アバターに適応することができる。
論文 参考訳(メタデータ) (2024-02-09T13:07:22Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Emergent Communication in Interactive Sketch Question Answering [38.38087954142305]
視覚に基づく創発的コミュニケーション(EC)は、スケッチを通してコミュニケーションを学び、人間のコミュニケーションの進化を解明することを目的としている。
まず,2人の共同プレイヤがスケッチを通して対話し,複数ラウンドで画像に関する質問に答える,インタラクティブスケッチ質問回答(ISQA)タスクを紹介する。
人的評価を含む実験結果は、多ラウンドの対話機構が、適切な人間の解釈可能性を持つ知的エージェント間の標的的かつ効率的なコミュニケーションを促進することを実証している。
論文 参考訳(メタデータ) (2023-10-24T08:00:20Z) - Proactive Human-Robot Interaction using Visuo-Lingual Transformers [0.0]
人間は人間の相互作用を通して文脈を推測するために、潜伏したビスオ・言語的手がかりを抽出する能力を持っている。
本研究では,シーンからの視覚的手がかり,ユーザからの言語コマンド,事前オブジェクト間相互作用の知識を用いて,ユーザが達成しようとしている目標を積極的に予測する学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-04T00:50:21Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - Joint Mind Modeling for Explanation Generation in Complex Human-Robot
Collaborative Tasks [83.37025218216888]
本稿では,人間とロボットのコラボレーションにおいて,人間のようなコミュニケーションを実現するための新しい説明可能なAI(XAI)フレームワークを提案する。
ロボットは、人間のユーザの階層的なマインドモデルを構築し、コミュニケーションの一形態として自身のマインドの説明を生成する。
その結果,提案手法はロボットの協調動作性能とユーザ認識を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2020-07-24T23:35:03Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。