論文の概要: Evaluating Human-Language Model Interaction
- arxiv url: http://arxiv.org/abs/2212.09746v4
- Date: Sun, 10 Sep 2023 13:31:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 22:41:06.972539
- Title: Evaluating Human-Language Model Interaction
- Title(参考訳): 言語モデル間インタラクションの評価
- Authors: Mina Lee, Megha Srivastava, Amelia Hardy, John Thickstun, Esin Durmus,
Ashwin Paranjape, Ines Gerard-Ursin, Xiang Lisa Li, Faisal Ladhak, Frieda
Rong, Rose E. Wang, Minae Kwon, Joon Sung Park, Hancheng Cao, Tony Lee, Rishi
Bommasani, Michael Bernstein, Percy Liang
- Abstract要約: 我々は,対話型システムのコンポーネントを定義する,HALIE(Human-AI Language-based Interaction Evaluation)という新しいフレームワークを開発した。
ソーシャル対話,質問応答,クロスワードパズル,要約,メタファ生成という,対話のさまざまな形態をカバーする5つのタスクを設計する。
より優れた非対話的性能は、必ずしもより良い人間とLMの相互作用に必ずしも変換されない。
- 参考スコア(独自算出の注目度): 79.33022878034627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many real-world applications of language models (LMs), such as writing
assistance and code autocomplete, involve human-LM interaction. However, most
benchmarks are non-interactive in that a model produces output without human
involvement. To evaluate human-LM interaction, we develop a new framework,
Human-AI Language-based Interaction Evaluation (HALIE), that defines the
components of interactive systems and dimensions to consider when designing
evaluation metrics. Compared to standard, non-interactive evaluation, HALIE
captures (i) the interactive process, not only the final output; (ii) the
first-person subjective experience, not just a third-party assessment; and
(iii) notions of preference beyond quality (e.g., enjoyment and ownership). We
then design five tasks to cover different forms of interaction: social
dialogue, question answering, crossword puzzles, summarization, and metaphor
generation. With four state-of-the-art LMs (three variants of OpenAI's GPT-3
and AI21 Labs' Jurassic-1), we find that better non-interactive performance
does not always translate to better human-LM interaction. In particular, we
highlight three cases where the results from non-interactive and interactive
metrics diverge and underscore the importance of human-LM interaction for LM
evaluation.
- Abstract(参考訳): 言語モデル(LM)の現実的な応用は、筆記補助やコードオートコンプリートなど、人間とLMの相互作用を含む。
しかしながら、ほとんどのベンチマークは、モデルが人間の関与なしに出力を生成するという点で非インタラクティブである。
HALIE(Human-AI Language-based Interaction Evaluation)と呼ばれる,対話型システムのコンポーネントと,評価指標を設計する際に考慮すべき次元を定義するフレームワークを開発した。
HALIE の標準的非対話的評価との比較
(i)最終的な出力だけでなく、対話的なプロセス
(ii)第三者のアセスメントに限らず、一人称主観的な経験
(iii)品質を超えた選好の概念(楽しさ及び所有権など)
次に,ソーシャル対話,質問応答,クロスワードパズル,要約,メタファ生成という,インタラクションのさまざまな形式をカバーする5つのタスクを設計した。
最先端の4つのLM(OpenAIのGPT-3とAI21 LabsのJurassic-1の3つの変種)では、より優れた非インタラクティブ性能は、必ずしもより良い人間とLMの相互作用に変換されない。
特に,非対話的,インタラクティブな指標から得られた結果が,LM評価における人間とLMの相互作用の重要性を浮き彫りにした3つの事例を強調した。
関連論文リスト
- Interaction2Code: How Far Are We From Automatic Interactive Webpage Generation? [30.540795619470483]
本稿では,対話型Webページを生成する上で,MLLM(Multi-modal large language model)を初めて体系的に検討する。
具体的には、まずInteraction-to-Codeタスクを定式化し、Interaction2Codeベンチマークを構築します。
次に、自動計測と人的評価の両方を用いて、3つの最先端(SOTA)MLLMの総合的な実験を行う。
論文 参考訳(メタデータ) (2024-11-05T17:40:03Z) - Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。
従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。
本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文 参考訳(メタデータ) (2024-08-19T09:57:28Z) - BotEval: Facilitating Interactive Human Evaluation [21.99269491969255]
BotEvalは評価プロセスの一部として人間とボットのインタラクションを可能にする評価ツールキットである。
我々は、評価プロセスの一部として、人間とボットの対話を可能にすることに焦点を当てた、カスタマイズが容易でオープンソースの評価ツールキットBotEvalを開発した。
論文 参考訳(メタデータ) (2024-07-25T04:57:31Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - Dialogue Evaluation with Offline Reinforcement Learning [2.580163308334609]
タスク指向対話システムは,自然言語対話によるユーザ目標達成を目的としている。
これらは、開発フェーズのすべてのイテレーションで達成不可能な、人間のユーザによって理想的に評価されます。
静的コーパスに基づく対話評価のためのオフライン強化学習を提案する。
論文 参考訳(メタデータ) (2022-09-02T08:32:52Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - How To Evaluate Your Dialogue System: Probe Tasks as an Alternative for
Token-level Evaluation Metrics [47.20761880464552]
生成的対話モデリングは言語モデリングタスクとして広く見なされている。
このタスクは、エージェントが入力テキストを複雑な自然言語で理解し、ユーザと意味のある対話を行うように要求する。
使用される自動メトリクスは、生成されたテキストの品質を、エージェントの全体的相互作用のプロキシとして評価する。
論文 参考訳(メタデータ) (2020-08-24T13:28:35Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。