論文の概要: Multi-party Goal Tracking with LLMs: Comparing Pre-training,
Fine-tuning, and Prompt Engineering
- arxiv url: http://arxiv.org/abs/2308.15231v1
- Date: Tue, 29 Aug 2023 11:40:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 14:29:18.386654
- Title: Multi-party Goal Tracking with LLMs: Comparing Pre-training,
Fine-tuning, and Prompt Engineering
- Title(参考訳): LLMを用いた多人数ゴールトラッキング:事前学習, 微調整, プロンプトエンジニアリングの比較
- Authors: Angus Addlesee, Weronika Siei\'nska, Nancie Gunson, Daniel Hern\'andez
Garcia, Christian Dondrup, Oliver Lemon
- Abstract要約: 本稿では,現在のLarge Language Models (LLMs) がタスク指向多人数会話 (MPCs) をどの程度捉えることができるかを評価する。
当院では患者29名,同伴者1名,社会ロボット1名にMPCを記録・転写した。
人々は目標を共有し、お互いの目標に答え、他の人の目標をMPCで提供します。
- 参考スコア(独自算出の注目度): 3.5838912422280456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper evaluates the extent to which current Large Language Models (LLMs)
can capture task-oriented multi-party conversations (MPCs). We have recorded
and transcribed 29 MPCs between patients, their companions, and a social robot
in a hospital. We then annotated this corpus for multi-party goal-tracking and
intent-slot recognition. People share goals, answer each other's goals, and
provide other people's goals in MPCs - none of which occur in dyadic
interactions. To understand user goals in MPCs, we compared three methods in
zero-shot and few-shot settings: we fine-tuned T5, created pre-training tasks
to train DialogLM using LED, and employed prompt engineering techniques with
GPT-3.5-turbo, to determine which approach can complete this novel task with
limited data. GPT-3.5-turbo significantly outperformed the others in a few-shot
setting. The `reasoning' style prompt, when given 7% of the corpus as example
annotated conversations, was the best performing method. It correctly annotated
62.32% of the goal tracking MPCs, and 69.57% of the intent-slot recognition
MPCs. A `story' style prompt increased model hallucination, which could be
detrimental if deployed in safety-critical settings. We conclude that
multi-party conversations still challenge state-of-the-art LLMs.
- Abstract(参考訳): 本稿では,現在のLarge Language Models(LLMs)がタスク指向多人数会話(MPCs)をどの程度捉えることができるかを評価する。
患者と同伴者、そして病院のソーシャルロボットの間に29個のmpcを記録・転写した。
そして、このコーパスをマルチパーティのゴールトラッキングとインテントスロット認識にアノテートした。
人々は目標を共有し、お互いの目標に答え、他の人の目標をMPCで提供します。
我々はT5を微調整し、LEDでDialogLMをトレーニングするための事前訓練タスクを作成し、GPT-3.5-turboで迅速なエンジニアリング技術を採用し、この新しいタスクを限られたデータで完成させる方法を決定する。
gpt-3.5-turboは、数ショット設定で他を著しく上回った。
言い換える」スタイルのプロンプトは、コーパスの7%をアノテートされた会話の例として与えると、最高の実行方法であった。
目標追跡MPCの62.32%、インテントスロット認識MPCの69.57%を正しく注釈付けした。
ストーリー'スタイルはモデル幻覚を素早く増やし、安全クリティカルな設定で展開すれば有害になる可能性がある。
我々は、マルチパーティ会話は依然として最先端のllmに挑戦していると結論づける。
関連論文リスト
- Sub-goal Distillation: A Method to Improve Small Language Agents [21.815417165548187]
大規模言語モデル(LLM)は対話型タスクにおけるエージェントとして大きな可能性を証明している。
数十億のパラメータを持つLLMの性能を、はるかに小さな言語モデルに転送する手法を提案する。
困難かつマルチタスクな対話型テキスト環境であるScienceWorldでは,基本動作のみに基づく標準的な模倣学習を16.7%超えている。
論文 参考訳(メタデータ) (2024-05-04T20:34:06Z) - Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk [11.706292228586332]
大規模言語モデル(LLM)は強力な対話エージェントであるが、特定の機能の実現に特化することは困難である。
本稿では,様々な役割における会話に係わるLLMを通して,より効果的なデータ収集手法を提案する。
このアプローチはLLMの“セルフトーク”を通じてトレーニングデータを生成し,教師付き微調整に利用することができる。
論文 参考訳(メタデータ) (2024-01-10T09:49:10Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task
Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。
また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。
その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-03T08:06:35Z) - Better Zero-Shot Reasoning with Role-Play Prompting [10.90357246745529]
ロールプレイプロンプトは、ほとんどのデータセットで標準のゼロショットアプローチを一貫して上回っている。
これは、大きな言語モデルの推論能力を増強する可能性を強調している。
論文 参考訳(メタデータ) (2023-08-15T11:08:30Z) - AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot
Manipulation [50.737355245505334]
本稿では,ロボット操作タスクにおける高レベル認知能力を学習するための新しいフレームワークを提案する。
得られたデータセットAlphaBlockは、多段階のテキストプランとペア観測による35の包括的なハイレベルタスクで構成されている。
論文 参考訳(メタデータ) (2023-05-30T09:54:20Z) - CINS: Comprehensive Instruction for Few-shot Learning in Task-oriented
Dialog Systems [56.302581679816775]
本稿では,タスク固有の命令でPLMを利用する包括的インストラクション(CINS)を提案する。
命令のスキーマ(定義、制約、プロンプト)と、ToDの3つの重要な下流タスクに対するカスタマイズされた実現を設計する。
これらのToDタスクに対して,小さな検証データを用いた現実的な数ショット学習シナリオで実験を行った。
論文 参考訳(メタデータ) (2021-09-10T03:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。