論文の概要: The Task-oriented Queries Benchmark (ToQB)
- arxiv url: http://arxiv.org/abs/2406.02943v1
- Date: Wed, 5 Jun 2024 05:05:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 19:59:32.882861
- Title: The Task-oriented Queries Benchmark (ToQB)
- Title(参考訳): タスク指向クエリベンチマーク(ToQB)
- Authors: Keun Soo Yim,
- Abstract要約: タスク指向クエリの標準ベンチマークはまだ利用できない。
NLP分野の既存のベンチマークは主にタスク指向の対話に焦点を当てている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Task-oriented queries (e.g., one-shot queries to play videos, order food, or call a taxi) are crucial for assessing the quality of virtual assistants, chatbots, and other large language model (LLM)-based services. However, a standard benchmark for task-oriented queries is not yet available, as existing benchmarks in the relevant NLP (Natural Language Processing) fields have primarily focused on task-oriented dialogues. Thus, we present a new methodology for efficiently generating the Task-oriented Queries Benchmark (ToQB) using existing task-oriented dialogue datasets and an LLM service. Our methodology involves formulating the underlying NLP task to summarize the original intent of a speaker in each dialogue, detailing the key steps to perform the devised NLP task using an LLM service, and outlining a framework for automating a major part of the benchmark generation process. Through a case study encompassing three domains (i.e., two single-task domains and one multi-task domain), we demonstrate how to customize the LLM prompts (e.g., omitting system utterances or speaker labels) for those three domains and characterize the generated task-oriented queries. The generated ToQB dataset is made available to the public. We further discuss new domains that can be added to ToQB by community contributors and its practical applications.
- Abstract(参考訳): タスク指向クエリ(ビデオ再生、注文食品、タクシー呼び出しなど)は、仮想アシスタントやチャットボット、その他のLLMベースのサービスの品質を評価する上で不可欠である。
しかし、関連するNLP(Natural Language Processing)分野の既存のベンチマークは主にタスク指向の対話に焦点を当てているため、タスク指向クエリの標準ベンチマークはまだ利用できない。
そこで本研究では,既存のタスク指向対話データセットとLLMサービスを用いて,タスク指向クエリベンチマーク(ToQB)を効率的に生成する手法を提案する。
提案手法は,各対話における話者の本来の意図を要約するために基礎となるNLPタスクを定式化し,LLMサービスを用いて考案されたNLPタスクを実行するための重要なステップを詳述し,ベンチマーク生成プロセスの大部分を自動化するためのフレームワークの概要を述べる。
2つの単一タスクドメインと1つのマルチタスクドメインを含むケーススタディを通じて、これらの3つのドメインに対してLLMプロンプト(例えば、システム発話や話者ラベルを省略する)をカスタマイズし、生成されたタスク指向クエリを特徴付ける方法を示す。
生成されたToQBデータセットが一般公開されている。
さらに、コミュニティコントリビュータによるToQBに追加可能な新しいドメインとその実践的応用について論じる。
関連論文リスト
- LLM-based Frameworks for API Argument Filling in Task-Oriented Conversational Systems [39.54340884416936]
本稿では,Large Language Models (LLMs) のAPI引数充足問題への適用について検討する。
提案手法と組み合わせることで, LLMの引数充足性能が顕著に向上することを示す。
論文 参考訳(メタデータ) (2024-06-27T06:54:53Z) - HELPER-X: A Unified Instructable Embodied Agent to Tackle Four Interactive Vision-Language Domains with Memory-Augmented Language Models [13.963676467274109]
我々は、より広い例とプロンプトでメモリを拡張することで、HELPERの機能を拡張する。
この単純なHELPERの共有メモリへの拡張により、エージェントは対話、自然言語の命令、アクティブな質問、一般的な部屋の再編成から計画を実行するドメイン間で作業することができる。
本稿では,AChRED,TAA,DialFRED,Tidy Taskの4種類の対話型視覚言語エンボディエージェントについて評価を行った。
論文 参考訳(メタデータ) (2024-04-29T19:12:42Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - A Self-enhancement Approach for Domain-specific Chatbot Training via
Knowledge Mining and Digest [62.63606958140248]
大規模言語モデル(LLM)は、特定のドメインで複雑な知識要求クエリを扱う際に、しばしば困難に直面する。
本稿では、ドメイン固有のテキストソースから関連知識を効果的に抽出し、LLMを強化する新しいアプローチを提案する。
我々は知識マイナー、すなわちLLMinerを訓練し、関連する文書から質問応答対を自律的に抽出する。
論文 参考訳(メタデータ) (2023-11-17T16:09:10Z) - Large Language Models can accomplish Business Process Management Tasks [0.0]
大規模言語モデル(LLM)がテキスト関連ビジネスプロセス管理タスクをどのように達成できるかを示す。
LLMは、テキスト記述からプロセスモデルを達成し、テキスト記述から宣言的プロセスモデルをマイニングし、ロボットプロセス自動化のためのテキスト記述からプロセスタスクの適合性を評価する。
論文 参考訳(メタデータ) (2023-07-19T11:54:46Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Automaton-Based Representations of Task Knowledge from Generative
Language Models [24.63416209240575]
大規模生成言語モデル(GLM)は、関連するタスク知識を自動的に生成することができる。
本稿では,タスク目標の簡単な自然言語記述から高レベルタスク知識を符号化する有限状態オートマトン(FSA)を構築する,GLM2FSAという新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-04T22:34:16Z) - Recitation-Augmented Language Models [85.30591349383849]
知識集約型NLPタスクにおいて,RECITEは強力なパラダイムであることを示す。
具体的には、リサイクリングを中間ステップとして活用することにより、新しい最先端性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-10-04T00:49:20Z) - FETA: A Benchmark for Few-Sample Task Transfer in Open-Domain Dialogue [70.65782786401257]
本研究は、オープンドメイン対話における少数サンプルタスク転送のベンチマークであるFETAを導入することにより、対話型タスク転送について検討する。
FETAには10タスクと7タスクがアノテートされた2つの基礎的な会話が含まれており、データセット内タスク転送の研究を可能にする。
3つの人気のある言語モデルと3つの学習アルゴリズムを用いて、132のソースターゲットタスクペア間の転送可能性を分析する。
論文 参考訳(メタデータ) (2022-05-12T17:59:00Z) - InstructionNER: A Multi-Task Instruction-Based Generative Framework for
Few-shot NER [31.32381919473188]
InstructionNERというマルチタスク命令ベースの生成フレームワークを提案する。
具体的には、NERタスクを生成問題として再構成し、タスク固有の命令と回答オプションでソース文を豊かにし、自然言語のエンティティと型を推論する。
実験結果から,本手法は5つのデータセットのベースラインを数ショット設定で一貫的に上回っていることがわかった。
論文 参考訳(メタデータ) (2022-03-08T07:56:36Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。