論文の概要: Beyond Text: Improving LLM's Decision Making for Robot Navigation via
Vocal Cues
- arxiv url: http://arxiv.org/abs/2402.03494v1
- Date: Mon, 5 Feb 2024 20:11:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 18:00:59.011032
- Title: Beyond Text: Improving LLM's Decision Making for Robot Navigation via
Vocal Cues
- Title(参考訳): beyond text:音声によるロボットナビゲーションのためのllmの意思決定を改善する
- Authors: Xingpeng Sun, Haoming Meng, Souradip Chakraborty, Amrit Singh Bedi,
Aniket Bera
- Abstract要約: この研究は、人間とロボットの相互作用に使用されるテキストベースのLarge Language Models(LLM)の重大な欠点を強調している。
テキストを超えて、これらの音声応答のパラ言語的特徴に重きを置くことで、この欠点に対処することができる。
『Beyond Text』は、ソーシャルロボットナビゲーションとより広範な人間-ロボットインタラクションの進歩を示す。
- 参考スコア(独自算出の注目度): 22.539790310630618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work highlights a critical shortcoming in text-based Large Language
Models (LLMs) used for human-robot interaction, demonstrating that text alone
as a conversation modality falls short in such applications. While LLMs excel
in processing text in these human conversations, they struggle with the nuances
of verbal instructions in scenarios like social navigation, where ambiguity and
uncertainty can erode trust in robotic and other AI systems. We can address
this shortcoming by moving beyond text and additionally focusing on the
paralinguistic features of these audio responses. These features are the
aspects of spoken communication that do not involve the literal wording
(lexical content) but convey meaning and nuance through how something is said.
We present "Beyond Text"; an approach that improves LLM decision-making by
integrating audio transcription along with a subsection of these features,
which focus on the affect and more relevant in human-robot conversations. This
approach not only achieves a 70.26% winning rate, outperforming existing LLMs
by 48.30%, but also enhances robustness against token manipulation adversarial
attacks, highlighted by a 22.44% less decrease ratio than the text-only
language model in winning rate. "Beyond Text" marks an advancement in social
robot navigation and broader Human-Robot interactions, seamlessly integrating
text-based guidance with human-audio-informed language models.
- Abstract(参考訳): この研究は、人間とロボットの対話に使用されるテキストベースの大規模言語モデル(llm)の致命的な欠点を浮き彫りにしている。
llmは、これらの人間の会話でテキストを処理するのに優れているが、ロボットや他のaiシステムの曖昧さと不確実性が信頼を損なうような、ソーシャルナビゲーションのようなシナリオにおける言葉による指示のニュアンスに苦しむ。
テキストを超えて、さらにこれらの音声応答のパラ言語機能に焦点を当てることで、この欠点に対処できます。
これらの特徴は、文字通りの単語(語彙内容)は含まないが、意味やニュアンスを何かの言葉を通して伝える音声コミュニケーションの側面である。
提案する「beyond text(beyond text)」は,人間とロボットの会話における影響と関連性を重視した,これらの機能のサブセクションと音声転写を統合することで,llm意思決定を改善する手法である。
このアプローチは 70.26% の勝利率を達成するだけでなく、既存の LLM を 48.30% で上回り、トークン操作の敵攻撃に対する堅牢性を高め、勝利率においてテキストのみの言語モデルよりも 22.44% の減少率で強調される。
『Beyond Text』はソーシャルロボットナビゲーションとより広範なヒューマンロボットインタラクションの進歩であり、テキストベースのガイダンスをヒューマン・オーディオ・インフォームド言語モデルとシームレスに統合している。
関連論文リスト
- Ain't Misbehavin' -- Using LLMs to Generate Expressive Robot Behavior in
Conversations with the Tabletop Robot Haru [9.2526849536751]
本稿では,大規模言語モデル(LLM)を利用して,表現行動を伴うロボット応答を生成する,完全自動会話システムを提案する。
提案したシステムを用いて,ボランティアが社会ロボットとチャットし,そのフィードバックを分析し,チャットテキストの厳密な誤り解析を行う。
最も否定的なフィードバックは、会話に限られた影響を及ぼす自動音声認識(ASR)エラーによるものだった。
論文 参考訳(メタデータ) (2024-02-18T12:35:52Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z) - Harnessing the Power of LLMs: Evaluating Human-AI Text Co-Creation
through the Lens of News Headline Generation [58.31430028519306]
本研究は, LLMを書き込みに最も有効に活用する方法と, これらのモデルとのインタラクションが, 書き込みプロセスにおけるオーナシップや信頼感にどのように影響するかを考察する。
LLMだけで十分なニュースの見出しを生成することができるが、平均すると、望ましくないモデルのアウトプットを修正するには人間による制御が必要である。
論文 参考訳(メタデータ) (2023-10-16T15:11:01Z) - Speech-Gesture GAN: Gesture Generation for Robots and Embodied Agents [5.244401764969407]
仮想エージェントや社会ロボットという形で、身体エージェントが急速に普及している。
音声テキストと音声の発話から関節角度の連続を生成できる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-17T18:46:25Z) - Improving Textless Spoken Language Understanding with Discrete Units as
Intermediate Target [58.59044226658916]
Spoken Language Understanding (SLU) は、音声音声から意味情報を抽出することを目的としたタスクである。
本研究では,テキストレスSLUの性能向上のための中間ガイダンスとして離散単位を用いることを提案する。
論文 参考訳(メタデータ) (2023-05-29T14:00:24Z) - BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。
本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-12-16T14:00:26Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Whither the Priors for (Vocal) Interactivity? [6.709659274527638]
音声に基づくコミュニケーションは、人間とロボットが対話する最も自然な方法の1つとしてしばしば引用される。
それにもかかわらず、結果として生じる相互作用は自然に他ならない」。
このようなコミュニケーションの失敗は、より深い誤認の兆候である、とここでは主張されている。
論文 参考訳(メタデータ) (2022-03-16T12:06:46Z) - Hierarchical Summarization for Longform Spoken Dialog [1.995792341399967]
音声対話の広汎性にもかかわらず、自動音声理解と品質情報抽出は依然として著しく貧弱である。
テキストを理解することに比べ、聴覚コミュニケーションは、話者の拡散、非公式な散文スタイル、構造の欠如など、多くの追加的な課題を生んでいる。
本稿では、2段階のASRとテキスト要約パイプラインを提案し、これらの音声認識課題を解決するためのセマンティックセグメンテーションとマージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-21T23:31:31Z) - Detecting Bot-Generated Text by Characterizing Linguistic Accommodation
in Human-Bot Interactions [9.578008322407928]
言語生成モデルの民主化は、悪質な活動のために、人間のようなテキストを大規模に生成しやすくする。
人々がボットとどのように相互作用するかを理解し、ボット生成テキストを検出する方法を開発することが不可欠である。
本稿では,ボットが生成するテキスト検出手法が,人々の反応に関する情報を使用する場合,データセットやモデル間でより堅牢であることを示す。
論文 参考訳(メタデータ) (2021-06-02T14:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。