論文の概要: Who's Thinking? A Push for Human-Centered Evaluation of LLMs using the
XAI Playbook
- arxiv url: http://arxiv.org/abs/2303.06223v1
- Date: Fri, 10 Mar 2023 22:15:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 20:24:46.807965
- Title: Who's Thinking? A Push for Human-Centered Evaluation of LLMs using the
XAI Playbook
- Title(参考訳): 誰が考えるのか?
XAIプレイブックを用いたLLMの人間中心評価の推進
- Authors: Teresa Datta and John P. Dickerson
- Abstract要約: 我々は、XAIの比較的成熟した分野と、大規模言語モデルを中心とした急速に発展する研究ブームの類似性を引き出す。
我々は、デプロイされた大規模言語モデルを評価する際に、人間の傾向は前後に休むべきだと論じる。
- 参考スコア(独自算出の注目度): 30.985555463848264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deployed artificial intelligence (AI) often impacts humans, and there is no
one-size-fits-all metric to evaluate these tools. Human-centered evaluation of
AI-based systems combines quantitative and qualitative analysis and human
input. It has been explored to some depth in the explainable AI (XAI) and
human-computer interaction (HCI) communities. Gaps remain, but the basic
understanding that humans interact with AI and accompanying explanations, and
that humans' needs -- complete with their cognitive biases and quirks -- should
be held front and center, is accepted by the community. In this paper, we draw
parallels between the relatively mature field of XAI and the rapidly evolving
research boom around large language models (LLMs). Accepted evaluative metrics
for LLMs are not human-centered. We argue that many of the same paths tread by
the XAI community over the past decade will be retread when discussing LLMs.
Specifically, we argue that humans' tendencies -- again, complete with their
cognitive biases and quirks -- should rest front and center when evaluating
deployed LLMs. We outline three developed focus areas of human-centered
evaluation of XAI: mental models, use case utility, and cognitive engagement,
and we highlight the importance of exploring each of these concepts for LLMs.
Our goal is to jumpstart human-centered LLM evaluation.
- Abstract(参考訳): デプロイされた人工知能(AI)は、しばしば人間に影響を与える。
AIに基づくシステムの人間中心評価は、量的および質的な分析と人間の入力を組み合わせる。
説明可能なAI(XAI)とHCI(Human-Computer Interaction)コミュニティで、いくつかの詳細が調査されている。
ギャップは残るが、人間がAIと対話し、それに伴う説明をし、人間の要求 ― 認知バイアスとクォークを完備する ― は、コミュニティによって受け入れられるべきである、という基本的な理解は、コミュニティによって受け入れられるべきである。
本稿では,XAIの比較的成熟した分野と,大規模言語モデル(LLM)を中心に急速に発展する研究ブームの並列性について述べる。
LLMに対する評価指標は人間中心ではない。
我々は、過去10年間にXAIコミュニティが踏襲してきた同じパスの多くが、LSMについて議論する際に再読まれると論じている。
具体的には、デプロイされたllmを評価する際には、人間の傾向 -- 認知バイアスと虚偽性と共に -- が前もって集中すべきである、と論じています。
我々は,xaiの人間中心評価における3つの焦点領域であるメンタルモデル,ユースケースの有用性,認知的関与について概説し,これらの概念をllmで探求することの重要性を強調する。
私たちの目標は、人間中心のllm評価を始めることです。
関連論文リスト
- Position Paper: Against Spurious Sparks $-$ Dovelating Inflated AI
Claims [6.929834518749885]
我々は,現在行われている人工知能(AGI)の探索が,大規模言語モデル(LLM)に過度に貢献する人間のような品質を実現するための完璧な嵐であるかについて論じる。
いくつかの実験で、潜伏空間における人間解釈パターンの発見は驚くべき結果ではないことが実証された。
論文 参考訳(メタデータ) (2024-02-06T12:42:21Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - Exploring Qualitative Research Using LLMs [8.545798128849091]
この研究は、人間とAIが駆動する大規模言語モデルの理解能力を比較し、比較することを目的としている。
私たちはAlexaアプリのレビューの小さなサンプルを使って実験を行い、最初は人間のアナリストによって分類された。
LLMはこれらのレビューを分類し、それぞれの分類の背後にある理由を提供するよう求められた。
論文 参考訳(メタデータ) (2023-06-23T05:21:36Z) - Evaluating Human-Language Model Interaction [79.33022878034627]
我々は,対話型システムのコンポーネントを定義する,HALIE(Human-AI Language-based Interaction Evaluation)という新しいフレームワークを開発した。
ソーシャル対話,質問応答,クロスワードパズル,要約,メタファ生成という,対話のさまざまな形態をカバーする5つのタスクを設計する。
より優れた非対話的性能は、必ずしもより良い人間とLMの相互作用に必ずしも変換されない。
論文 参考訳(メタデータ) (2022-12-19T18:59:45Z) - On the Effect of Information Asymmetry in Human-AI Teams [0.0]
我々は、人間とAIの相補的ポテンシャルの存在に焦点を当てる。
具体的には、情報非対称性を相補性ポテンシャルの必須源とみなす。
オンライン実験を行うことで、人間がそのような文脈情報を使ってAIの決定を調整できることを実証する。
論文 参考訳(メタデータ) (2022-05-03T13:02:50Z) - Best-Response Bayesian Reinforcement Learning with Bayes-adaptive POMDPs
for Centaurs [22.52332536886295]
本稿では,人間とAIの相互作用を逐次ゲームとして新たに定式化する。
このケースでは、有界人間によるより良い意思決定を支援するというAIの問題は、ベイズ対応のPOMDPに還元される。
我々は、機械が自身の限界と人間の助けを借りて改善する方法について議論する。
論文 参考訳(メタデータ) (2022-04-03T21:00:51Z) - On some Foundational Aspects of Human-Centered Artificial Intelligence [52.03866242565846]
人間中心人工知能(Human Centered Artificial Intelligence)の意味については明確な定義はない。
本稿では,AIコンポーネントを備えた物理・ソフトウェア計算エージェントを指すHCAIエージェントについて紹介する。
HCAIエージェントの概念は、そのコンポーネントや機能とともに、人間中心のAIに関する技術的および非技術的議論を橋渡しする手段であると考えています。
論文 参考訳(メタデータ) (2021-12-29T09:58:59Z) - A User-Centred Framework for Explainable Artificial Intelligence in
Human-Robot Interaction [70.11080854486953]
本稿では,XAIのソーシャル・インタラクティブな側面に着目したユーザ中心型フレームワークを提案する。
このフレームワークは、エキスパートでないユーザのために考えられた対話型XAIソリューションのための構造を提供することを目的としている。
論文 参考訳(メタデータ) (2021-09-27T09:56:23Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - Learning to Complement Humans [67.38348247794949]
オープンワールドにおけるAIに対するビジョンの高まりは、知覚、診断、推論タスクのために人間を補完できるシステムの開発に焦点を当てている。
我々は,人間-機械チームの複合的なパフォーマンスを最適化するために,エンド・ツー・エンドの学習戦略をどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2020-05-01T20:00:23Z) - Human Evaluation of Interpretability: The Case of AI-Generated Music
Knowledge [19.508678969335882]
我々は、芸術と人文科学におけるAIが発見する知識/ルールを評価することに注力する。
本稿では,洗練された記号的/数値的対象として表現されたAI生成音楽理論/ルールの人間生成言語解釈を収集し,評価する実験手法を提案する。
論文 参考訳(メタデータ) (2020-04-15T06:03:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。