Fugu-MT 論文翻訳(概要): Evaluating Human-Language Model Interaction

論文の概要: Evaluating Human-Language Model Interaction

arxiv url: http://arxiv.org/abs/2212.09746v4
Date: Sun, 10 Sep 2023 13:31:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-12 22:41:06.972539
Title: Evaluating Human-Language Model Interaction
Title（参考訳）: 言語モデル間インタラクションの評価
Authors: Mina Lee, Megha Srivastava, Amelia Hardy, John Thickstun, Esin Durmus, Ashwin Paranjape, Ines Gerard-Ursin, Xiang Lisa Li, Faisal Ladhak, Frieda Rong, Rose E. Wang, Minae Kwon, Joon Sung Park, Hancheng Cao, Tony Lee, Rishi Bommasani, Michael Bernstein, Percy Liang
Abstract要約: 我々は,対話型システムのコンポーネントを定義する,HALIE(Human-AI Language-based Interaction Evaluation)という新しいフレームワークを開発した。ソーシャル対話,質問応答,クロスワードパズル,要約,メタファ生成という,対話のさまざまな形態をカバーする5つのタスクを設計する。より優れた非対話的性能は、必ずしもより良い人間とLMの相互作用に必ずしも変換されない。
参考スコア（独自算出の注目度）: 79.33022878034627
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Many real-world applications of language models (LMs), such as writing assistance and code autocomplete, involve human-LM interaction. However, most benchmarks are non-interactive in that a model produces output without human involvement. To evaluate human-LM interaction, we develop a new framework, Human-AI Language-based Interaction Evaluation (HALIE), that defines the components of interactive systems and dimensions to consider when designing evaluation metrics. Compared to standard, non-interactive evaluation, HALIE captures (i) the interactive process, not only the final output; (ii) the first-person subjective experience, not just a third-party assessment; and (iii) notions of preference beyond quality (e.g., enjoyment and ownership). We then design five tasks to cover different forms of interaction: social dialogue, question answering, crossword puzzles, summarization, and metaphor generation. With four state-of-the-art LMs (three variants of OpenAI's GPT-3 and AI21 Labs' Jurassic-1), we find that better non-interactive performance does not always translate to better human-LM interaction. In particular, we highlight three cases where the results from non-interactive and interactive metrics diverge and underscore the importance of human-LM interaction for LM evaluation.
Abstract（参考訳）: 言語モデル(LM)の現実的な応用は、筆記補助やコードオートコンプリートなど、人間とLMの相互作用を含む。しかしながら、ほとんどのベンチマークは、モデルが人間の関与なしに出力を生成するという点で非インタラクティブである。 HALIE(Human-AI Language-based Interaction Evaluation)と呼ばれる,対話型システムのコンポーネントと,評価指標を設計する際に考慮すべき次元を定義するフレームワークを開発した。 HALIE の標準的非対話的評価との比較 (i)最終的な出力だけでなく、対話的なプロセス (ii)第三者のアセスメントに限らず、一人称主観的な経験 (iii)品質を超えた選好の概念(楽しさ及び所有権など) 次に,ソーシャル対話,質問応答,クロスワードパズル,要約,メタファ生成という,インタラクションのさまざまな形式をカバーする5つのタスクを設計した。最先端の4つのLM(OpenAIのGPT-3とAI21 LabsのJurassic-1の3つの変種)では、より優れた非インタラクティブ性能は、必ずしもより良い人間とLMの相互作用に変換されない。特に,非対話的,インタラクティブな指標から得られた結果が,LM評価における人間とLMの相互作用の重要性を浮き彫りにした3つの事例を強調した。

関連論文リスト

SoMi-ToM: Evaluating Multi-Perspective Theory of Mind in Embodied Social Interactions [21.149270997910403]
SoMi-ToMベンチマークは,マルチエージェント複合社会相互作用におけるマルチパースペクティブToMを評価するために設計されている。我々は,35人の第三者視点映像,633人の一人称視点画像,1225人の専門家による複数選択質問を含む挑戦的なデータセットを構築した。その結果,SoMi-ToMではLVLMがヒトよりも有意に低下することが判明した。
論文参考訳（メタデータ） (2025-06-29T00:54:13Z)
Interaction2Code: How Far Are We From Automatic Interactive Webpage Generation? [30.540795619470483]
本稿では,対話型Webページを生成する上で,MLLM(Multi-modal large language model)を初めて体系的に検討する。具体的には、まずInteraction-to-Codeタスクを定式化し、Interaction2Codeベンチマークを構築します。次に、自動計測と人的評価の両方を用いて、3つの最先端(SOTA)MLLMの総合的な実験を行う。
論文参考訳（メタデータ） (2024-11-05T17:40:03Z)
Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文参考訳（メタデータ） (2024-08-19T09:57:28Z)
BotEval: Facilitating Interactive Human Evaluation [21.99269491969255]
BotEvalは評価プロセスの一部として人間とボットのインタラクションを可能にする評価ツールキットである。我々は、評価プロセスの一部として、人間とボットの対話を可能にすることに焦点を当てた、カスタマイズが容易でオープンソースの評価ツールキットBotEvalを開発した。
論文参考訳（メタデータ） (2024-07-25T04:57:31Z)
Towards interactive evaluations for interaction harms in human-AI systems [8.989911701384788]
我々は,テキストインタラクションの害に着目したテキストインタラクション倫理に基づく評価へのシフトを提案する。まず,(1)静的,(2)普遍的なユーザエクスペリエンスを仮定し,(3)構成妥当性を限定した現状評価手法の限界について議論する。インタラクティブな評価を設計するための実践的原則として, 生態学的に有効な相互作用シナリオ, ヒューマンインパクトメトリクス, 多様な人間参加アプローチなどがあげられる。
論文参考訳（メタデータ） (2024-05-17T08:49:34Z)
AntEval: Evaluation of Social Interaction Competencies in LLM-Driven Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文参考訳（メタデータ） (2024-01-12T11:18:00Z)
Dialogue Evaluation with Offline Reinforcement Learning [2.580163308334609]
タスク指向対話システムは,自然言語対話によるユーザ目標達成を目的としている。これらは、開発フェーズのすべてのイテレーションで達成不可能な、人間のユーザによって理想的に評価されます。静的コーパスに基づく対話評価のためのオフライン強化学習を提案する。
論文参考訳（メタデータ） (2022-09-02T08:32:52Z)
Detecting Human-to-Human-or-Object (H2O) Interactions with DIABOLO [29.0200561485714]
我々は,Human-to-Human-or-Object(H2O)という2種類のインタラクションを扱う新しいインタラクションデータセットを提案する。さらに, 人間の身体的態度の記述に近づき, 周囲の相互作用の標的について記述することを目的とした, 動詞の新たな分類法を導入する。提案手法は,1回のフォワードパスにおける全てのインタラクションを検出するための,効率的な主観中心単発撮影法であるDIABOLOを提案する。
論文参考訳（メタデータ） (2022-01-07T11:00:11Z)
Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。 ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文参考訳（メタデータ） (2021-02-20T03:29:20Z)
How To Evaluate Your Dialogue System: Probe Tasks as an Alternative for Token-level Evaluation Metrics [47.20761880464552]
生成的対話モデリングは言語モデリングタスクとして広く見なされている。このタスクは、エージェントが入力テキストを複雑な自然言語で理解し、ユーザと意味のある対話を行うように要求する。使用される自動メトリクスは、生成されたテキストの品質を、エージェントの全体的相互作用のプロキシとして評価する。
論文参考訳（メタデータ） (2020-08-24T13:28:35Z)
Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文参考訳（メタデータ） (2020-05-01T20:01:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。