論文の概要: I Was Blind but Now I See: Implementing Vision-Enabled Dialogue in
Social Robots
- arxiv url: http://arxiv.org/abs/2311.08957v1
- Date: Wed, 15 Nov 2023 13:47:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 15:56:48.071222
- Title: I Was Blind but Now I See: Implementing Vision-Enabled Dialogue in
Social Robots
- Title(参考訳): ぼくは盲目だったけど、今はわかった:ソーシャルロボットの視覚的対話の実装
- Authors: Giulio Antonio Abbo and Tony Belpaeme
- Abstract要約: 本稿では、従来のテキストベースのプロンプトをリアルタイム視覚入力で強化する対話マネージャの初期実装について述べる。
システムの迅速なエンジニアリングは、画像の要約と対話を組み込むことで、コンテキスト保存と計算効率のバランスを確保する。
- 参考スコア(独自算出の注目度): 0.040792653193642496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the rapidly evolving landscape of human-computer interaction, the
integration of vision capabilities into conversational agents stands as a
crucial advancement. This paper presents an initial implementation of a
dialogue manager that leverages the latest progress in Large Language Models
(e.g., GPT-4, IDEFICS) to enhance the traditional text-based prompts with
real-time visual input. LLMs are used to interpret both textual prompts and
visual stimuli, creating a more contextually aware conversational agent. The
system's prompt engineering, incorporating dialogue with summarisation of the
images, ensures a balance between context preservation and computational
efficiency. Six interactions with a Furhat robot powered by this system are
reported, illustrating and discussing the results obtained. By implementing
this vision-enabled dialogue system, the paper envisions a future where
conversational agents seamlessly blend textual and visual modalities, enabling
richer, more context-aware dialogues.
- Abstract(参考訳): 人間とコンピュータの相互作用が急速に進化する中で、視覚能力の対話エージェントへの統合は重要な進歩である。
本稿では,大規模な言語モデル(gpt-4,ideficsなど)の最新の進歩を活用して,従来のテキストベースのプロンプトをリアルタイム視覚入力で拡張する対話マネージャの初期実装について述べる。
LLMは、テキストプロンプトと視覚刺激の両方を解釈するために使用され、より文脈的に認識された会話エージェントを生成する。
システムの迅速なエンジニアリングは、画像の要約と対話を組み込むことで、コンテキスト保存と計算効率のバランスを確保する。
このシステムによって駆動されるフルハットロボットとの6つのインタラクションが報告され、その結果を図解し、議論している。
この視覚対応対話システムを実装することで、会話エージェントがテキストと視覚をシームレスにブレンドし、よりリッチでコンテキスト対応な対話を可能にする未来を構想する。
関連論文リスト
- WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - A Graph-to-Text Approach to Knowledge-Grounded Response Generation in
Human-Robot Interaction [2.3590037806133024]
本稿では,対話状態のグラフベース表現に基づく人間-ロボット間相互作用の新しい対話モデルを提案する。
ユーザの発話に応答するために使用されるニューラルネットワークモデルは、シンプルだが効果的なグラフ・トゥ・テキスト機構に依存している。
提案手法はヒューマノイドロボットを用いたユーザスタディにより実験的に評価される。
論文 参考訳(メタデータ) (2023-11-03T15:44:28Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Enabling Harmonious Human-Machine Interaction with Visual-Context
Augmented Dialogue System: A Review [40.49926141538684]
Visual Context Augmented Dialogue System (VAD) は、マルチモーダル情報を知覚し理解することで人間とコミュニケーションする能力を持つ。
VADは、エンゲージメントとコンテキスト対応の応答を生成する可能性を秘めている。
論文 参考訳(メタデータ) (2022-07-02T09:31:37Z) - A Review of Dialogue Systems: From Trained Monkeys to Stochastic Parrots [0.0]
人工知能をデプロイして、人間と会話できる自動対話エージェントを構築することを目指している。
本稿では,長年にわたって対話システムを構築するために開発された手法について概説する。
論文 参考訳(メタデータ) (2021-11-02T08:07:55Z) - Advances in Multi-turn Dialogue Comprehension: A Survey [51.215629336320305]
自然言語を理解し、人間と対話するための訓練機械は、人工知能の解明と本質的なタスクである。
本稿では,対話理解タスクにおける対話モデリングの技術的視点から,過去の手法を概観する。
さらに,対話シナリオにおけるPrLMの強化に使用される対話関連事前学習手法を分類する。
論文 参考訳(メタデータ) (2021-10-11T03:52:37Z) - "How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken
Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。
マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。
我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文 参考訳(メタデータ) (2021-09-28T04:51:04Z) - Advances in Multi-turn Dialogue Comprehension: A Survey [51.215629336320305]
対話モデリングの観点から,従来の手法を検討した。
対話理解タスクで広く使用されている対話モデリングの3つの典型的なパターンについて議論します。
論文 参考訳(メタデータ) (2021-03-04T15:50:17Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。