論文の概要: Nebula: A discourse aware Minecraft Builder
- arxiv url: http://arxiv.org/abs/2406.18164v4
- Date: Tue, 08 Oct 2024 09:26:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:29:44.825689
- Title: Nebula: A discourse aware Minecraft Builder
- Title(参考訳): Nebula:Minecraft Builderを意識した講演
- Authors: Akshay Chaturvedi, Kate Thompson, Nicholas Asher,
- Abstract要約: 先行した言論と非言語的文脈を取り入れることで、そのような相互作用の「言語から行動への」要素がいかに改善されるかを示す。
私たちのモデルであるNebulaは、このタスクのベースライン上でのネットアクションF1スコアを2倍にします。
- 参考スコア(独自算出の注目度): 4.014524824655106
- License:
- Abstract: When engaging in collaborative tasks, humans efficiently exploit the semantic structure of a conversation to optimize verbal and nonverbal interactions. But in recent "language to code" or "language to action" models, this information is lacking. We show how incorporating the prior discourse and nonlinguistic context of a conversation situated in a nonlinguistic environment can improve the "language to action" component of such interactions. We finetune an LLM to predict actions based on prior context; our model, Nebula, doubles the net-action F1 score over the baseline on this task of Jayannavar et al.(2020). We also investigate our model's ability to construct shapes and understand location descriptions using a synthetic dataset
- Abstract(参考訳): 協調作業を行う際、人間は会話の意味的構造を効果的に活用し、言語的および非言語的相互作用を最適化する。
しかし、最近の"Language to Code"や"Language to Action"モデルでは、この情報は欠落している。
非言語的環境にある会話の事前の言論と非言語的文脈を組み込むことが、そのような相互作用の「言語から行動への」要素をいかに改善するかを示す。
我々のモデルであるNebulaは、Jayannavar et al(2020)のこのタスクのベースライン上でのネットアクションF1スコアを2倍にします。
また、我々のモデルが形状を構築し、位置記述を合成データセットで理解する能力についても検討する。
関連論文リスト
- Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Dialogue Action Tokens: Steering Language Models in Goal-Directed Dialogue with a Multi-Turn Planner [51.77263363285369]
本稿では,対話行動トークンと呼ばれる言語モデルエージェントを用いて,目標指向の対話を計画する手法を提案する。
中心となる考え方は、各発話をアクションとして扱うことで、強化学習のような既存のアプローチを適用することができるゲームに対話を変換することである。
論文 参考訳(メタデータ) (2024-06-17T18:01:32Z) - CantTalkAboutThis: Aligning Language Models to Stay on Topic in Dialogues [4.427811636536821]
CantTalkAboutこのデータセットは、異なるドメインからの幅広い会話トピックに関する合成対話で構成されている。
このデータセット上の微調整言語モデルは、割り当てられたロールから逸脱する耐性を高めるのに役立ちます。
予備的な観察は、このデータセットのトレーニングモデルが、安全アライメントを含む、きめ細かい指示に従うタスクのパフォーマンスを向上させることを示唆している。
論文 参考訳(メタデータ) (2024-04-04T22:31:58Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Towards Joint Modeling of Dialogue Response and Speech Synthesis based
on Large Language Model [8.180382743037082]
本稿では,AI音声対話システムの構築の可能性について考察する。
論文 参考訳(メタデータ) (2023-09-20T01:48:27Z) - Joint Modelling of Spoken Language Understanding Tasks with Integrated
Dialog History [30.20353302347147]
本研究では,発話の意図,対話行動,話者の役割,感情を共同で予測するために,対話コンテキストを学習する新しいモデルアーキテクチャを提案する。
本実験は,タスク固有分類器と類似した結果が得られることを示す。
論文 参考訳(メタデータ) (2023-05-01T16:26:18Z) - Energy-based Models are Zero-Shot Planners for Compositional Scene
Rearrangement [19.494104738436892]
このフレームワークは,シミュレーションや実世界において,ゼロショットで合成命令を実行できることを示す。
言語から反応する反応ポリシーや大規模言語モデルよりも、特に複数の概念の合成を含む長い命令において、大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-04-27T17:55:13Z) - Verbs in Action: Improving verb understanding in video-language models [128.87443209118726]
CLIPに基づく最先端のビデオ言語モデルは、動詞の理解が限られていることが示されている。
我々は,CLIPに基づくビデオ言語モデルの動詞理解を改善するために,新しいVerb-Focused Contrastiveフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:57:01Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - A Neural Network-Based Linguistic Similarity Measure for Entrainment in
Conversations [12.052672647509732]
言語訓練は、人々が会話でお互いを模倣する傾向がある現象である。
現在の類似度尺度のほとんどは、back-of-wordsアプローチに基づいている。
本稿では,ニューラルネットワークモデルを用いて,運動の類似度を測定することを提案する。
論文 参考訳(メタデータ) (2021-09-04T19:48:17Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。