Fugu-MT 論文翻訳(概要): Nebula: A discourse aware Minecraft Builder

論文の概要: Nebula: A discourse aware Minecraft Builder

arxiv url: http://arxiv.org/abs/2406.18164v4
Date: Tue, 08 Oct 2024 09:26:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 05:37:09.461509
Title: Nebula: A discourse aware Minecraft Builder
Title（参考訳）: Nebula:Minecraft Builderを意識した講演
Authors: Akshay Chaturvedi, Kate Thompson, Nicholas Asher,
Abstract要約: 先行した言論と非言語的文脈を取り入れることで、そのような相互作用の「言語から行動への」要素がいかに改善されるかを示す。私たちのモデルであるNebulaは、このタスクのベースライン上でのネットアクションF1スコアを2倍にします。
参考スコア（独自算出の注目度）: 4.014524824655106
License: http://creativecommons.org/licenses/by/4.0/
Abstract: When engaging in collaborative tasks, humans efficiently exploit the semantic structure of a conversation to optimize verbal and nonverbal interactions. But in recent "language to code" or "language to action" models, this information is lacking. We show how incorporating the prior discourse and nonlinguistic context of a conversation situated in a nonlinguistic environment can improve the "language to action" component of such interactions. We finetune an LLM to predict actions based on prior context; our model, Nebula, doubles the net-action F1 score over the baseline on this task of Jayannavar et al.(2020). We also investigate our model's ability to construct shapes and understand location descriptions using a synthetic dataset
Abstract（参考訳）: 協調作業を行う際、人間は会話の意味的構造を効果的に活用し、言語的および非言語的相互作用を最適化する。しかし、最近の"Language to Code"や"Language to Action"モデルでは、この情報は欠落している。非言語的環境にある会話の事前の言論と非言語的文脈を組み込むことが、そのような相互作用の「言語から行動への」要素をいかに改善するかを示す。我々のモデルであるNebulaは、Jayannavar et al(2020)のこのタスクのベースライン上でのネットアクションF1スコアを2倍にします。また、我々のモデルが形状を構築し、位置記述を合成データセットで理解する能力についても検討する。

関連論文リスト

Towards Developmentally Plausible Rewards: Communicative Success as a Learning Signal for Interactive Language Models [49.22720751953838]
本研究では,子どもの言語習得に触発された対話型環境で言語モデルを訓練する手法を提案する。この設定では、話者は1ターンの対話でリスナーに何らかの情報を伝達しようと試み、コミュニケーションの成功が達成されれば報酬を受け取る。
論文参考訳（メタデータ） (2025-05-09T11:48:36Z)
TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling [46.60911294356232]
本稿では,テキスト適応型音声トークン化と埋め込み(TASTE)を導入し,トークン化段階における音声トークンと対応するテキストの書き起こしを一致させる。我々は広範囲な実験を行い、TASTEはトークン列の長さを劇的に減らしながら重要なパラ言語情報を保持することができることを示す。実験の結果,TASTEを用いたSLMはSALMONやStoryClozeに匹敵する性能を示した。
論文参考訳（メタデータ） (2025-04-09T17:14:33Z)
Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文参考訳（メタデータ） (2024-09-30T07:01:21Z)
Dialogue Action Tokens: Steering Language Models in Goal-Directed Dialogue with a Multi-Turn Planner [51.77263363285369]
本稿では,対話行動トークンと呼ばれる言語モデルエージェントを用いて,目標指向の対話を計画する手法を提案する。中心となる考え方は、各発話をアクションとして扱うことで、強化学習のような既存のアプローチを適用することができるゲームに対話を変換することである。
論文参考訳（メタデータ） (2024-06-17T18:01:32Z)
CantTalkAboutThis: Aligning Language Models to Stay on Topic in Dialogues [4.427811636536821]
CantTalkAboutこのデータセットは、異なるドメインからの幅広い会話トピックに関する合成対話で構成されている。このデータセット上の微調整言語モデルは、割り当てられたロールから逸脱する耐性を高めるのに役立ちます。予備的な観察は、このデータセットのトレーニングモデルが、安全アライメントを含む、きめ細かい指示に従うタスクのパフォーマンスを向上させることを示唆している。
論文参考訳（メタデータ） (2024-04-04T22:31:58Z)
Paralinguistics-Aware Speech-Empowered Large Language Models for Natural Conversation [46.93969003104427]
本稿では,広範な音声テキストLLMフレームワークである統一音声対話モデル(USDM)を紹介する。 USDMは、与えられた入力音声に関連する自然な韻律的特徴を持つコヒーレントな音声応答を生成するように設計されている。提案手法は,従来のベースラインとカスケードベースラインを超越した自然な音声応答を効果的に生成する。
論文参考訳（メタデータ） (2024-02-08T14:35:09Z)
Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT) モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文参考訳（メタデータ） (2023-12-23T18:14:56Z)
Towards Joint Modeling of Dialogue Response and Speech Synthesis based on Large Language Model [8.180382743037082]
本稿では,AI音声対話システムの構築の可能性について考察する。
論文参考訳（メタデータ） (2023-09-20T01:48:27Z)
Joint Modelling of Spoken Language Understanding Tasks with Integrated Dialog History [30.20353302347147]
本研究では,発話の意図,対話行動,話者の役割,感情を共同で予測するために,対話コンテキストを学習する新しいモデルアーキテクチャを提案する。本実験は,タスク固有分類器と類似した結果が得られることを示す。
論文参考訳（メタデータ） (2023-05-01T16:26:18Z)
Energy-based Models are Zero-Shot Planners for Compositional Scene Rearrangement [19.494104738436892]
このフレームワークは,シミュレーションや実世界において,ゼロショットで合成命令を実行できることを示す。言語から反応する反応ポリシーや大規模言語モデルよりも、特に複数の概念の合成を含む長い命令において、大きなマージンで優れています。
論文参考訳（メタデータ） (2023-04-27T17:55:13Z)
Verbs in Action: Improving verb understanding in video-language models [128.87443209118726]
CLIPに基づく最先端のビデオ言語モデルは、動詞の理解が限られていることが示されている。我々は,CLIPに基づくビデオ言語モデルの動詞理解を改善するために,新しいVerb-Focused Contrastiveフレームワークを提案する。
論文参考訳（メタデータ） (2023-04-13T17:57:01Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)
A Neural Network-Based Linguistic Similarity Measure for Entrainment in Conversations [12.052672647509732]
言語訓練は、人々が会話でお互いを模倣する傾向がある現象である。現在の類似度尺度のほとんどは、back-of-wordsアプローチに基づいている。本稿では,ニューラルネットワークモデルを用いて,運動の類似度を測定することを提案する。
論文参考訳（メタデータ） (2021-09-04T19:48:17Z)
Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。言語モデルのための完全合成出力埋め込み層を提案する。我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文参考訳（メタデータ） (2020-09-24T07:21:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。