論文の概要: Parachute: Evaluating Interactive Human-LM Co-writing Systems
- arxiv url: http://arxiv.org/abs/2303.06333v2
- Date: Sat, 25 Mar 2023 01:40:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 00:07:55.967417
- Title: Parachute: Evaluating Interactive Human-LM Co-writing Systems
- Title(参考訳): Parachute: インタラクティブなヒューマン-LMコライティングシステムの評価
- Authors: Hua Shen, Tongshuang Wu
- Abstract要約: 本研究では,対話型協調書記システムのための人間中心評価フレームワークであるParachuteを提案する。
パラシュートは相互作用評価の総合的な視点を示し、それぞれの評価側面は、分類された実践的指標から構成される。
- 参考スコア(独自算出の注目度): 25.796953937281526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A surge of advances in language models (LMs) has led to significant interest
in using LMs to build co-writing systems, in which humans and LMs interactively
contribute to a shared writing artifact. However, there is a lack of studies
assessing co-writing systems in interactive settings. We propose a
human-centered evaluation framework, Parachute, for interactive co-writing
systems. Parachute showcases an integrative view of interaction evaluation,
where each evaluation aspect consists of categorized practical metrics.
Furthermore, we present Parachute with a use case to demonstrate how to
evaluate and compare co-writing systems using Parachute.
- Abstract(参考訳): 言語モデル(LM)の進歩は、人間とLMが相互に相互に共筆の成果物に貢献するコライティングシステムを構築するために、LMを使うことに大きな関心を惹き付けている。
しかし、インタラクティブな環境での協調書記システムを評価する研究は乏しい。
本研究では,対話型コライトシステムのための人間中心評価フレームワークであるParachuteを提案する。
パラシュートは相互作用評価の総合的な視点を示し、それぞれの評価側面は、分類された実践的指標から構成される。
さらに,Parachuteを用いた共筆システムの評価と比較を行うために,Parachuteをユースケースとして提示する。
関連論文リスト
- Unlocking Structure Measuring: Introducing PDD, an Automatic Metric for Positional Discourse Coherence [39.065349875944634]
本稿では,2つの長文間の談話の相違を定量化する手法を提案する。
ヒトの嗜好やGPT-4のコヒーレンス評価とより密接に一致し,既存の評価方法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-15T18:23:39Z) - C-PMI: Conditional Pointwise Mutual Information for Turn-level Dialogue
Evaluation [68.59356746305255]
本稿では,システムとユーザ間のターンレベルインタラクションを測定するための,モデルに依存しない新しいアプローチを提案する。
提案手法は,既存の評価システムと比較して,人間の判断との相関性を大幅に改善する。
論文 参考訳(メタデータ) (2023-06-27T06:58:03Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z) - Evaluating Human-Language Model Interaction [79.33022878034627]
我々は,対話型システムのコンポーネントを定義する,HALIE(Human-AI Language-based Interaction Evaluation)という新しいフレームワークを開発した。
ソーシャル対話,質問応答,クロスワードパズル,要約,メタファ生成という,対話のさまざまな形態をカバーする5つのタスクを設計する。
より優れた非対話的性能は、必ずしもより良い人間とLMの相互作用に必ずしも変換されない。
論文 参考訳(メタデータ) (2022-12-19T18:59:45Z) - Is MultiWOZ a Solved Task? An Interactive TOD Evaluation Framework with
User Simulator [37.590563896382456]
タスク指向対話(TOD)システムのための対話型評価フレームワークを提案する。
まず,事前学習したモデルに基づいて目標指向のユーザシミュレータを構築し,ユーザシミュレータを用いて対話システムと対話して対話を生成する。
実験の結果,提案したユーザシミュレータによりトレーニングされたRLベースのTODシステムは,約98%のインフォメーションと成功率を達成することができた。
論文 参考訳(メタデータ) (2022-10-26T07:41:32Z) - Semantic Interactive Learning for Text Classification: A Constructive
Approach for Contextual Interactions [0.0]
本稿では,テキスト領域に対するセマンティック対話学習という新しいインタラクションフレームワークを提案する。
構築的および文脈的フィードバックを学習者に取り入れることで、人間と機械間のよりセマンティックなアライメントを実現するアーキテクチャを見つけることができる。
本研究では,人間の概念的修正を非外挿訓練例に翻訳するのに有効なSemanticPushという手法を提案する。
論文 参考訳(メタデータ) (2022-09-07T08:13:45Z) - Assessing Dialogue Systems with Distribution Distances [48.61159795472962]
そこで本研究では,対話と実世界の会話の分散的距離を計算し,対話システムの性能を計測する。
複数の対話コーパスを用いた実験により,提案手法は既存の指標よりも人間の判断によく相関することが示された。
論文 参考訳(メタデータ) (2021-05-06T10:30:13Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - An Evaluation Protocol for Generative Conversational Systems [3.2858262572939148]
我々は,対話モデル評価のためのプロトコルを,頭部対対比較を用いて構築した。
我々は,5つの評価データセットを用いて,2対のヘッド・ツー・ヘッド性能(ウィン・ロス・ティー)を用いて最先端性能を主張する最近の10つのモデルを分析する。
論文 参考訳(メタデータ) (2020-10-24T01:59:49Z) - Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical
Analysis of System-wise Evaluation [114.48767388174218]
本稿では,異なる設定の異なるモジュールから構成される異なるダイアログシステムについて,実験的検討を行った。
この結果から, 粗粒度ラベルで学習した連系や終端モデルを用いたシステムよりも, 細粒度監視信号を用いて訓練したパイプラインダイアログシステムの方が, 高い性能が得られることが示唆された。
論文 参考訳(メタデータ) (2020-05-15T05:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。