論文の概要: ChaI-TeA: A Benchmark for Evaluating Autocompletion of Interactions with LLM-based Chatbots
- arxiv url: http://arxiv.org/abs/2412.18377v1
- Date: Tue, 24 Dec 2024 12:03:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:56:54.384690
- Title: ChaI-TeA: A Benchmark for Evaluating Autocompletion of Interactions with LLM-based Chatbots
- Title(参考訳): ChaI-TeA: LLMベースのチャットボットとのインタラクションの自動補完評価ベンチマーク
- Authors: Shani Goren, Oren Kalinsky, Tomer Stav, Yuri Rapoport, Yaron Fairstein, Ram Yazdy, Nachshon Cohen, Alexander Libov, Guy Kushilevitz,
- Abstract要約: 本稿では,ChaI-TeA: CHat InTEraction Autocomplete; LLMに基づくインタラクションのための自動評価フレームワークを提案する。
フレームワークにはタスクの正式な定義が含まれており、適切なデータセットとメトリクスが組み合わされている。
フレームワークを使って、適切なデータセットとメトリクスと共にタスクを正式に定義した後、定義したオートコンプリートタスクで9つのモデルをテストします。
- 参考スコア(独自算出の注目度): 37.80024426010599
- License:
- Abstract: The rise of LLMs has deflected a growing portion of human-computer interactions towards LLM-based chatbots. The remarkable abilities of these models allow users to interact using long, diverse natural language text covering a wide range of topics and styles. Phrasing these messages is a time and effort consuming task, calling for an autocomplete solution to assist users. We introduce the task of chatbot interaction autocomplete. We present ChaI-TeA: CHat InTEraction Autocomplete; An autcomplete evaluation framework for LLM-based chatbot interactions. The framework includes a formal definition of the task, coupled with suitable datasets and metrics. We use the framework to evaluate After formally defining the task along with suitable datasets and metrics, we test 9 models on the defined auto completion task, finding that while current off-the-shelf models perform fairly, there is still much room for improvement, mainly in ranking of the generated suggestions. We provide insights for practitioners working on this task and open new research directions for researchers in the field. We release our framework to serve as a foundation for future research.
- Abstract(参考訳): LLMの台頭は、LLMベースのチャットボットに対する人間とコンピュータの相互作用の増大を反映している。
これらのモデルの顕著な能力により、ユーザーは様々なトピックやスタイルをカバーする、長く多様な自然言語テキストを使って対話できる。
これらのメッセージを解析するのは時間と労力のかかる作業であり、ユーザを支援するための自動補完ソリューションを要求します。
チャットボットインタラクションのタスクを自動補完する。
本稿では,ChaI-TeA: CHat InTEraction Autocomplete; LLMベースのチャットボットインタラクションのための自動評価フレームワークを提案する。
フレームワークにはタスクの正式な定義が含まれており、適切なデータセットとメトリクスが組み合わされている。
適切なデータセットとメトリクスとともにタスクを正式に定義した後、定義したオートコンプリートタスクで9つのモデルをテストする。
我々は,この課題に取り組む実践者に洞察を与え,この分野の研究者に新たな研究指針を開く。
今後の研究の基盤となるためのフレームワークをリリースする。
関連論文リスト
- Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Characteristic AI Agents via Large Language Models [40.10858767752735]
本研究は,特有なAIエージェント構築における大規模言語モデルの性能調査に焦点をあてる。
character100''と呼ばれるデータセットがこのベンチマークのために構築されており、ウィキペディアの言語モデルでロールプレイを行う最も訪問者の多い人々で構成されている。
実験結果から,LLMの能力向上に向けた潜在的な方向性が明らかにされた。
論文 参考訳(メタデータ) (2024-03-19T02:25:29Z) - Learning-To-Rank Approach for Identifying Everyday Objects Using a
Physical-World Search Engine [0.8749675983608172]
我々は,オープン語彙のユーザ命令から対象オブジェクトをループで検索する作業に焦点をあてる。
本稿では,学習からランクの物理オブジェクトタスクのための新しいアプローチであるMultiRankItを提案する。
論文 参考訳(メタデータ) (2023-12-26T01:40:31Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - AutoConv: Automatically Generating Information-seeking Conversations
with Large Language Models [74.10293412011455]
合成会話生成のためのAutoConvを提案する。
具体的には,会話生成問題を言語モデリングタスクとして定式化する。
我々は、情報探索プロセスの特徴を捉えるために、人間同士の会話でLLMを微調整する。
論文 参考訳(メタデータ) (2023-08-12T08:52:40Z) - ChatGPT as your Personal Data Scientist [0.9689893038619583]
本稿では,ChatGPTを用いた対話型データサイエンスフレームワークについて紹介する。
データビジュアライゼーション、タスクの定式化、予測エンジニアリング、結果概要と勧告の4つのダイアログ状態を中心に、私たちのモデルが中心になっています。
要約して,会話データ科学の新たな概念が実現可能であることを証明するとともに,複雑なタスクを解く上でLLMが有効であることを示すエンド・ツー・エンド・エンド・システムを開発した。
論文 参考訳(メタデータ) (2023-05-23T04:00:16Z) - KETOD: Knowledge-Enriched Task-Oriented Dialogue [77.59814785157877]
対話システム研究における既存の研究は、主にタスク指向の対話とチャットを独立したドメインとして扱う。
本研究では,タスク指向対話と知識ベースチップチャットを一つのモデルに効果的に統合する方法について検討する。
論文 参考訳(メタデータ) (2022-05-11T16:01:03Z) - Few-Shot Bot: Prompt-Based Learning for Dialogue Systems [58.27337673451943]
ごく少数の例を使って会話を学ぶことは、会話型AIにおける大きな課題である。
現在の最良の会話モデルは、良いチャットシャッター(例:BlenderBot)またはゴール指向システム(例:MinTL)である。
グラデーションベースの微調整を必要とせず、学習の唯一の源としていくつかの例を用いるプロンプトベースの数ショット学習を提案する。
論文 参考訳(メタデータ) (2021-10-15T14:36:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。