論文の概要: Beyond Text: Improving LLM's Decision Making for Robot Navigation via
Vocal Cues
- arxiv url: http://arxiv.org/abs/2402.03494v1
- Date: Mon, 5 Feb 2024 20:11:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 18:00:59.011032
- Title: Beyond Text: Improving LLM's Decision Making for Robot Navigation via
Vocal Cues
- Title(参考訳): beyond text:音声によるロボットナビゲーションのためのllmの意思決定を改善する
- Authors: Xingpeng Sun, Haoming Meng, Souradip Chakraborty, Amrit Singh Bedi,
Aniket Bera
- Abstract要約: この研究は、人間とロボットの相互作用に使用されるテキストベースのLarge Language Models(LLM)の重大な欠点を強調している。
テキストを超えて、これらの音声応答のパラ言語的特徴に重きを置くことで、この欠点に対処することができる。
『Beyond Text』は、ソーシャルロボットナビゲーションとより広範な人間-ロボットインタラクションの進歩を示す。
- 参考スコア(独自算出の注目度): 22.539790310630618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work highlights a critical shortcoming in text-based Large Language
Models (LLMs) used for human-robot interaction, demonstrating that text alone
as a conversation modality falls short in such applications. While LLMs excel
in processing text in these human conversations, they struggle with the nuances
of verbal instructions in scenarios like social navigation, where ambiguity and
uncertainty can erode trust in robotic and other AI systems. We can address
this shortcoming by moving beyond text and additionally focusing on the
paralinguistic features of these audio responses. These features are the
aspects of spoken communication that do not involve the literal wording
(lexical content) but convey meaning and nuance through how something is said.
We present "Beyond Text"; an approach that improves LLM decision-making by
integrating audio transcription along with a subsection of these features,
which focus on the affect and more relevant in human-robot conversations. This
approach not only achieves a 70.26% winning rate, outperforming existing LLMs
by 48.30%, but also enhances robustness against token manipulation adversarial
attacks, highlighted by a 22.44% less decrease ratio than the text-only
language model in winning rate. "Beyond Text" marks an advancement in social
robot navigation and broader Human-Robot interactions, seamlessly integrating
text-based guidance with human-audio-informed language models.
- Abstract(参考訳): この研究は、人間とロボットの対話に使用されるテキストベースの大規模言語モデル(llm)の致命的な欠点を浮き彫りにしている。
llmは、これらの人間の会話でテキストを処理するのに優れているが、ロボットや他のaiシステムの曖昧さと不確実性が信頼を損なうような、ソーシャルナビゲーションのようなシナリオにおける言葉による指示のニュアンスに苦しむ。
テキストを超えて、さらにこれらの音声応答のパラ言語機能に焦点を当てることで、この欠点に対処できます。
これらの特徴は、文字通りの単語(語彙内容)は含まないが、意味やニュアンスを何かの言葉を通して伝える音声コミュニケーションの側面である。
提案する「beyond text(beyond text)」は,人間とロボットの会話における影響と関連性を重視した,これらの機能のサブセクションと音声転写を統合することで,llm意思決定を改善する手法である。
このアプローチは 70.26% の勝利率を達成するだけでなく、既存の LLM を 48.30% で上回り、トークン操作の敵攻撃に対する堅牢性を高め、勝利率においてテキストのみの言語モデルよりも 22.44% の減少率で強調される。
『Beyond Text』はソーシャルロボットナビゲーションとより広範なヒューマンロボットインタラクションの進歩であり、テキストベースのガイダンスをヒューマン・オーディオ・インフォームド言語モデルとシームレスに統合している。
関連論文リスト
- IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Recent Advances in Speech Language Models: A Survey [45.968078636811356]
音声言語モデル(SpeechLMs)は、テキストから変換することなく音声を生成するエンドツーエンドモデルである。
本稿では,近年のSpeechLM構築手法について概観する。
論文 参考訳(メタデータ) (2024-10-01T21:48:12Z) - Beyond Silent Letters: Amplifying LLMs in Emotion Recognition with Vocal Nuances [3.396456345114466]
本稿では,音声特徴を自然言語記述に変換するSpeechCueLLMを提案する。
我々は、IEMOCAPとMELDの2つのデータセット上でSpeechCueLLMを評価し、感情認識精度を大幅に改善した。
論文 参考訳(メタデータ) (2024-07-31T03:53:14Z) - Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。
本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。
オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文 参考訳(メタデータ) (2024-06-16T20:41:44Z) - Ain't Misbehavin' -- Using LLMs to Generate Expressive Robot Behavior in
Conversations with the Tabletop Robot Haru [9.2526849536751]
本稿では,大規模言語モデル(LLM)を利用して,表現行動を伴うロボット応答を生成する,完全自動会話システムを提案する。
提案したシステムを用いて,ボランティアが社会ロボットとチャットし,そのフィードバックを分析し,チャットテキストの厳密な誤り解析を行う。
最も否定的なフィードバックは、会話に限られた影響を及ぼす自動音声認識(ASR)エラーによるものだった。
論文 参考訳(メタデータ) (2024-02-18T12:35:52Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z) - Voxtlm: unified decoder-only models for consolidating speech
recognition/synthesis and speech/text continuation tasks [61.3055230762097]
音声認識,音声合成,テキスト生成,音声継続の4つのタスクを実行できるデコーダのみの言語モデルであるVoxtLMを提案する。
VoxtLMは、テキスト語彙を自己教師付き音声特徴から独立した音声トークンと統合し、マルチタスク学習を可能にするために特別なトークンを使用する。
論文 参考訳(メタデータ) (2023-09-14T03:13:18Z) - BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。
本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-12-16T14:00:26Z) - Whither the Priors for (Vocal) Interactivity? [6.709659274527638]
音声に基づくコミュニケーションは、人間とロボットが対話する最も自然な方法の1つとしてしばしば引用される。
それにもかかわらず、結果として生じる相互作用は自然に他ならない」。
このようなコミュニケーションの失敗は、より深い誤認の兆候である、とここでは主張されている。
論文 参考訳(メタデータ) (2022-03-16T12:06:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。