論文の概要: Evaluating Human-Language Model Interaction
- arxiv url: http://arxiv.org/abs/2212.09746v2
- Date: Tue, 20 Dec 2022 18:53:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 14:54:07.157082
- Title: Evaluating Human-Language Model Interaction
- Title(参考訳): 言語モデル間インタラクションの評価
- Authors: Mina Lee, Megha Srivastava, Amelia Hardy, John Thickstun, Esin Durmus,
Ashwin Paranjape, Ines Gerard-Ursin, Xiang Lisa Li, Faisal Ladhak, Frieda
Rong, Rose E. Wang, Minae Kwon, Joon Sung Park, Hancheng Cao, Tony Lee, Rishi
Bommasani, Michael Bernstein, Percy Liang
- Abstract要約: 多くの実世界の言語モデル(LM)の応用には、人間とLMの相互作用が含まれる。
主要なLMベンチマークは、システムが人間の関与なしに出力を生成するという点で非インタラクティブである。
我々は,3次元の非対話的評価を拡大するHALIE(Human-AI Language-based Interaction Evaluation)を新たに開発した。
- 参考スコア(独自算出の注目度): 74.23481311055563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many real-world applications of language models (LMs), such as code
autocomplete and writing assistance, involve human-LM interaction. However, the
main LM benchmarks are non-interactive in that a system produces output without
human involvement. To evaluate human-LM interaction, we develop a new
framework, Human-AI Language-based Interaction Evaluation (HALIE), that expands
non-interactive evaluation along three dimensions, capturing (i) the
interactive process, not only the final output; (ii) the first-person
subjective experience, not just a third-party assessment; and (iii) notions of
preference beyond quality. We then design five tasks ranging from goal-oriented
to open-ended to capture different forms of interaction. On four
state-of-the-art LMs (three variants of OpenAI's GPT-3 and AI21's J1-Jumbo), we
find that non-interactive performance does not always result in better human-LM
interaction and that first-person and third-party metrics can diverge,
suggesting the importance of examining the nuances of human-LM interaction.
- Abstract(参考訳): コードオートコンプリートや筆記支援といった言語モデル(LM)の現実的な応用には、人間とLMの相互作用が含まれる。
しかしながら、主要なLMベンチマークは、システムが人間の関与なしに出力を生成するという点で非対話的である。
HALIE(Human-AI Language-based Interaction Evaluation)という,3次元の非対話的評価を拡大するフレームワークを開発した。
(i)最終的な出力だけでなく、対話的なプロセス
(ii)第三者のアセスメントに限らず、一人称主観的な経験
(iii)品質以上の選好概念。
次に、さまざまな形式のインタラクションをキャプチャするために、目標指向からopen-endedまでの5つのタスクを設計します。
最先端の4つのLM(OpenAIのGPT-3とAI21のJ1-Jumboの3つの変種)では、非インタラクティブなパフォーマンスが必ずしも人間とLMの相互作用を改善するとは限らないこと、第一人物と第三者のメトリクスがばらつき、人間とLMの相互作用のニュアンスを調べることの重要性が示唆されている。
関連論文リスト
- Interaction2Code: How Far Are We From Automatic Interactive Webpage Generation? [30.540795619470483]
本稿では,対話型Webページを生成する上で,MLLM(Multi-modal large language model)を初めて体系的に検討する。
具体的には、まずInteraction-to-Codeタスクを定式化し、Interaction2Codeベンチマークを構築します。
次に、自動計測と人的評価の両方を用いて、3つの最先端(SOTA)MLLMの総合的な実験を行う。
論文 参考訳(メタデータ) (2024-11-05T17:40:03Z) - Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。
従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。
本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文 参考訳(メタデータ) (2024-08-19T09:57:28Z) - BotEval: Facilitating Interactive Human Evaluation [21.99269491969255]
BotEvalは評価プロセスの一部として人間とボットのインタラクションを可能にする評価ツールキットである。
我々は、評価プロセスの一部として、人間とボットの対話を可能にすることに焦点を当てた、カスタマイズが容易でオープンソースの評価ツールキットBotEvalを開発した。
論文 参考訳(メタデータ) (2024-07-25T04:57:31Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - Dialogue Evaluation with Offline Reinforcement Learning [2.580163308334609]
タスク指向対話システムは,自然言語対話によるユーザ目標達成を目的としている。
これらは、開発フェーズのすべてのイテレーションで達成不可能な、人間のユーザによって理想的に評価されます。
静的コーパスに基づく対話評価のためのオフライン強化学習を提案する。
論文 参考訳(メタデータ) (2022-09-02T08:32:52Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - How To Evaluate Your Dialogue System: Probe Tasks as an Alternative for
Token-level Evaluation Metrics [47.20761880464552]
生成的対話モデリングは言語モデリングタスクとして広く見なされている。
このタスクは、エージェントが入力テキストを複雑な自然言語で理解し、ユーザと意味のある対話を行うように要求する。
使用される自動メトリクスは、生成されたテキストの品質を、エージェントの全体的相互作用のプロキシとして評価する。
論文 参考訳(メタデータ) (2020-08-24T13:28:35Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。