論文の概要: Evaluating Human-Language Model Interaction
- arxiv url: http://arxiv.org/abs/2212.09746v1
- Date: Mon, 19 Dec 2022 18:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 17:06:55.581115
- Title: Evaluating Human-Language Model Interaction
- Title(参考訳): 言語モデル間インタラクションの評価
- Authors: Mina Lee, Megha Srivastava, Amelia Hardy, John Thickstun, Esin Durmus,
Ashwin Paranjape, Ines Gerard-Ursin, Xiang Lisa Li, Faisal Ladhak, Frieda
Rong, Rose E. Wang, Minae Kwon, Joon Sung Park, Hancheng Cao, Tony Lee, Rishi
Bommasani, Michael Bernstein, Percy Liang
- Abstract要約: 我々は3次元の非対話的評価を拡大するHuman-AI Language-based Interaction Evaluation (H-LINE) フレームワークを開発した。
我々は、目標指向からオープンエンドまでの5つのタスクを設計し、異なる形式のインタラクションをキャプチャします。
最先端の4つのLMでは、非インタラクティブな性能が必ずしも人間とLMの相互作用を改善するとは限らないことが判明した。
- 参考スコア(独自算出の注目度): 74.23481311055563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many real-world applications of language models (LMs), such as code
autocomplete and writing assistance, involve human-LM interaction, but the main
LM benchmarks are non-interactive, where a system produces output without human
intervention. To evaluate human-LM interaction, we develop a framework,
Human-AI Language-based Interaction Evaluation (H-LINE), that expands
non-interactive evaluation along three dimensions, capturing (i) the
interactive process, not only the final output; (ii) the first-person
subjective experience, not just a third-party assessment; and (iii) notions of
preference beyond quality. We then design five tasks ranging from goal-oriented
to open-ended to capture different forms of interaction. On four
state-of-the-art LMs (three variants of OpenAI's GPT-3 and AI21's J1-Jumbo), we
find that non-interactive performance does not always result in better human-LM
interaction and that first-person and third-party metrics can diverge,
suggesting the importance of examining the nuances of human-LM interaction.
- Abstract(参考訳): コードオートコンプリートや筆記支援など、言語モデル(LM)の現実的な応用の多くは、人間とLMの相互作用を含むが、主要なLMベンチマークは、人間の介入なしに出力を生成する非インタラクティブである。
人-LMインタラクションを評価するために,3次元に沿って非対話的評価を拡大するHuman-AI Language-based Interaction Evaluation (H-LINE) フレームワークを開発した。
(i)最終的な出力だけでなく、対話的なプロセス
(ii)第三者のアセスメントに限らず、一人称主観的な経験
(iii)品質以上の選好概念。
次に、さまざまな形式のインタラクションをキャプチャするために、目標指向からopen-endedまでの5つのタスクを設計します。
最先端の4つのLM(OpenAIのGPT-3とAI21のJ1-Jumboの3つの変種)では、非インタラクティブなパフォーマンスが必ずしも人間とLMの相互作用を改善するとは限らないこと、第一人物と第三者のメトリクスがばらつき、人間とLMの相互作用のニュアンスを調べることの重要性が示唆されている。
関連論文リスト
- Interaction2Code: Benchmarking MLLM-based Interactive Webpage Code Generation from Interactive Prototyping [57.024913536420264]
MLLM(Multimodal Large Language Models)は、設計からコードへのタスクにおいて顕著な性能を示す。
本稿では,インタラクティブなWebページを生成する上で,MLLMを初めて体系的に研究する。
論文 参考訳(メタデータ) (2024-11-05T17:40:03Z) - Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。
従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。
本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文 参考訳(メタデータ) (2024-08-19T09:57:28Z) - BotEval: Facilitating Interactive Human Evaluation [21.99269491969255]
BotEvalは評価プロセスの一部として人間とボットのインタラクションを可能にする評価ツールキットである。
我々は、評価プロセスの一部として、人間とボットの対話を可能にすることに焦点を当てた、カスタマイズが容易でオープンソースの評価ツールキットBotEvalを開発した。
論文 参考訳(メタデータ) (2024-07-25T04:57:31Z) - Dialogue Evaluation with Offline Reinforcement Learning [2.580163308334609]
タスク指向対話システムは,自然言語対話によるユーザ目標達成を目的としている。
これらは、開発フェーズのすべてのイテレーションで達成不可能な、人間のユーザによって理想的に評価されます。
静的コーパスに基づく対話評価のためのオフライン強化学習を提案する。
論文 参考訳(メタデータ) (2022-09-02T08:32:52Z) - Detecting Human-to-Human-or-Object (H2O) Interactions with DIABOLO [29.0200561485714]
我々は,Human-to-Human-or-Object(H2O)という2種類のインタラクションを扱う新しいインタラクションデータセットを提案する。
さらに, 人間の身体的態度の記述に近づき, 周囲の相互作用の標的について記述することを目的とした, 動詞の新たな分類法を導入する。
提案手法は,1回のフォワードパスにおける全てのインタラクションを検出するための,効率的な主観中心単発撮影法であるDIABOLOを提案する。
論文 参考訳(メタデータ) (2022-01-07T11:00:11Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - How To Evaluate Your Dialogue System: Probe Tasks as an Alternative for
Token-level Evaluation Metrics [47.20761880464552]
生成的対話モデリングは言語モデリングタスクとして広く見なされている。
このタスクは、エージェントが入力テキストを複雑な自然言語で理解し、ユーザと意味のある対話を行うように要求する。
使用される自動メトリクスは、生成されたテキストの品質を、エージェントの全体的相互作用のプロキシとして評価する。
論文 参考訳(メタデータ) (2020-08-24T13:28:35Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。