論文の概要: FunctionChat-Bench: Comprehensive Evaluation of Language Models' Generative Capabilities in Korean Tool-use Dialogs
- arxiv url: http://arxiv.org/abs/2411.14054v1
- Date: Thu, 21 Nov 2024 11:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:20:30.983032
- Title: FunctionChat-Bench: Comprehensive Evaluation of Language Models' Generative Capabilities in Korean Tool-use Dialogs
- Title(参考訳): FunctionChat-Bench:韓国のツール・ユース・ダイアログにおける言語モデルの生成能力の総合評価
- Authors: Shinbok Lee, Gaeun Seo, Daniel Lee, Byeongil Ko, Sunghee Jung, Myeongcheol Shin,
- Abstract要約: 本研究では,ツール・ユース・ダイアログにおける言語モデルの生成能力について検討する。
ツールコール,Answer Completion,Slot Question,Relevance Detectionの4種類に分類した。
このベンチマークを用いて,関数呼び出しをサポートする複数の言語モデルを評価する。
- 参考スコア(独自算出の注目度): 4.406769771178207
- License:
- Abstract: This study investigates language models' generative capabilities in tool-use dialogs. We categorize the models' outputs in tool-use dialogs into four distinct types: Tool Call, Answer Completion, Slot Question, and Relevance Detection, which serve as aspects for evaluation. We introduce FunctionChat-Bench, comprising 700 evaluation items and automated assessment programs. Using this benchmark, we evaluate several language models that support function calling. Our findings indicate that while language models may exhibit high accuracy in single-turn Tool Call scenarios, this does not necessarily translate to superior generative performance in multi-turn environments. We argue that the capabilities required for function calling extend beyond generating tool call messages; they must also effectively generate conversational messages that engage the user.
- Abstract(参考訳): 本研究では,ツール・ユース・ダイアログにおける言語モデルの生成能力について検討する。
ツールコール,アンサーコンプリート,スロット質問,関連検出の4つの異なるタイプに分類し,評価の側面として機能する。
700項目の評価項目と自動評価プログラムを含むFunctionChat-Benchを紹介する。
このベンチマークを用いて,関数呼び出しをサポートする複数の言語モデルを評価する。
これらの結果から,言語モデルでは一ターンツールコールのシナリオでは高い精度が得られるが,多ターン環境においては優れた生成性能が得られるとは限らないことが示唆された。
機能呼び出しに必要な機能は,ツールコールメッセージの生成を超えて,ユーザの関与する会話メッセージを効果的に生成する必要がある,と我々は主張する。
関連論文リスト
- Evaluating Large Language Models in Semantic Parsing for Conversational
Question Answering over Knowledge Graphs [6.869834883252353]
本稿では,この課題に対して事前訓練を受けていない大規模言語モデルの性能を評価する。
その結果,大規模言語モデルでは対話からグラフクエリを生成することができることがわかった。
論文 参考訳(メタデータ) (2024-01-03T12:28:33Z) - Dialogue Quality and Emotion Annotations for Customer Support
Conversations [7.218791626731783]
本稿では、二言語的顧客サポート会話の文脈における感情と会話品質に対する全体論的アノテーションアプローチを提案する。
これは、テキスト分類モデルの開発に、ユニークで価値のあるリソースを提供する。
論文 参考訳(メタデータ) (2023-11-23T10:56:14Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - Improving Zero and Few-shot Generalization in Dialogue through
Instruction Tuning [27.92734269206744]
InstructDialは対話のための命令チューニングフレームワークである。
48の多様な対話タスクからなるリポジトリからなり、59のオープンな対話データセットから作成されるテキストとテキストの統一フォーマットである。
分析の結果,InstructDialは未知のデータセットや対話評価や意図検出などのタスクに対して良好なゼロショット性能を実現し,数ショット設定でさらに優れたパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2022-05-25T11:37:06Z) - Vector Representations of Idioms in Conversational Systems [1.6507910904669727]
我々は,2つの課題に対して,潜在的表現(PIE)-英語イディオムコーパスを利用する。
SoTA T5モデルを用いて分類作業において,98%のマクロF1スコアの最先端(SoTA)を達成した。
その結果、イディオムコーパスで訓練されたモデルは、イディオム71.9%を含むプロンプトに対してより適合した反応を生じさせることがわかった。
論文 参考訳(メタデータ) (2022-05-07T14:50:05Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z) - Quality Assurance of Generative Dialog Models in an Evolving
Conversational Agent Used for Swedish Language Practice [59.705062519344]
提案する1つのソリューションは、人中心の対話型言語実践のためのAI対応の会話エージェントである。
仮想面接のために訓練された独自の生成ダイアログモデルの品質保証を目標とした行動研究の成果を報告する。
論文 参考訳(メタデータ) (2022-03-29T10:25:13Z) - Prompt Programming for Large Language Models: Beyond the Few-Shot
Paradigm [0.0]
自然言語のレンズを通してプロンプトを考えることの有用性を強調しながら,プロンプトプログラミングの手法について論じる。
モデルに種を付けて、さまざまなタスクのための独自の自然言語プロンプトを生成するメタプロンプトのアイデアを紹介します。
論文 参考訳(メタデータ) (2021-02-15T05:27:55Z) - Plug-and-Play Conversational Models [62.77150879036442]
我々はデコード時にさらなる計算を必要としないアプローチを導入し、また大きな言語モデルの微調整も必要としない。
我々は、広範囲な自動的・人的評価を通じて、複数の望ましい属性について、生成した会話応答に対する高い制御を実証する。
論文 参考訳(メタデータ) (2020-10-09T03:17:51Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。