Fugu-MT 論文翻訳(概要): Evaluating Explanations Through LLMs: Beyond Traditional User Studies

論文の概要: Evaluating Explanations Through LLMs: Beyond Traditional User Studies

arxiv url: http://arxiv.org/abs/2410.17781v1
Date: Wed, 23 Oct 2024 11:31:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.428004
Title: Evaluating Explanations Through LLMs: Beyond Traditional User Studies
Title（参考訳）: LLMによる説明の評価 - 従来のユーザスタディを超えて
Authors: Francesco Bombassei De Bona, Gabriele Dominici, Tim Miller, Marc Langheinrich, Martin Gjoreski,
Abstract要約: 我々は,7つの大言語モデル(LLM)を用いた人間参加者を再現し,反事実的・因果的説明を比較検討したユーザスタディを再現する。以上の結果から, (i) LLMは, 原研究の結論のほとんどを再現でき, (ii) 異なるLLMは, 結果のアライメントレベルが異なること, (iii) LLMメモリや出力変動性などの実験的要因がヒトの反応のアライメントに影響を及ぼすことが示唆された。
参考スコア（独自算出の注目度）: 7.377398767507683
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As AI becomes fundamental in sectors like healthcare, explainable AI (XAI) tools are essential for trust and transparency. However, traditional user studies used to evaluate these tools are often costly, time consuming, and difficult to scale. In this paper, we explore the use of Large Language Models (LLMs) to replicate human participants to help streamline XAI evaluation. We reproduce a user study comparing counterfactual and causal explanations, replicating human participants with seven LLMs under various settings. Our results show that (i) LLMs can replicate most conclusions from the original study, (ii) different LLMs yield varying levels of alignment in the results, and (iii) experimental factors such as LLM memory and output variability affect alignment with human responses. These initial findings suggest that LLMs could provide a scalable and cost-effective way to simplify qualitative XAI evaluation.
Abstract（参考訳）: AIは医療などの分野において基本となるため、信頼と透明性のためには説明可能なAI(XAI)ツールが不可欠である。しかしながら、これらのツールを評価するのに使用される従来のユーザスタディは、しばしばコストがかかり、時間がかかり、スケールが困難である。本稿では,Large Language Models (LLMs) を用いて,XAI評価の合理化を支援する。種々の環境下での7つのLDMでヒトの参加者を再現し, 因果的説明と因果的説明を比較したユーザスタディを再現する。私たちの結果は (i)LLMは、元の研究からほとんどの結論を再現することができる。 (ii)異なるLLMは、結果のアライメントのレベルが異なるので、 3) LLMメモリや出力変動性などの実験的要因は, 人の反応の一致に影響を及ぼす。これらの初期の知見から、LCMは質的XAI評価を簡易化するためのスケーラブルで費用対効果の高い方法を提供する可能性が示唆された。

関連論文リスト

A Simple Ensemble Strategy for LLM Inference: Towards More Stable Text Classification [0.0]
本研究では,大規模言語モデル(LLM)を用いた感情分析に簡単なアンサンブル戦略を導入する。その結果,中規模のLLMを用いた多重推論のアンサンブルは,RMSEを18.6%削減する単一試みによる大規模モデルよりも,より堅牢で正確な結果が得られることを示した。
論文参考訳（メタデータ） (2025-04-26T10:10:26Z)
Enhancing Patient-Centric Communication: Leveraging LLMs to Simulate Patient Perspectives [19.462374723301792]
大きな言語モデル(LLM)はロールプレイングのシナリオにおいて印象的な機能を示している。人間の行動を模倣することで、LLMは具体的な人口統計や専門的なプロファイルに基づいて反応を予測できる。多様な背景を持つ個人をシミュレーションする上でのLLMの有効性を評価し,これらのシミュレーション行動の一貫性を解析した。
論文参考訳（メタデータ） (2025-01-12T22:49:32Z)
LLM-Mirror: A Generated-Persona Approach for Survey Pre-Testing [0.0]
統計的分布と個別意思決定パターンの両方を再現できるかどうかを検討する。また,LLMに応答性固有の情報を供給することによって生成されるユーザペルソナであるLLM-Mirrorの概念についても紹介する。 PLS-SEM分析の結果, LLMはヒトの反応に一致し, LLMはヒトの反応を再現し, LLM-Mirror反応はヒトの反応に密接に従っていることがわかった。
論文参考訳（メタデータ） (2024-12-04T09:39:56Z)
Enhancing LLM Evaluations: The Garbling Trick [0.0]
大規模言語モデル(LLM)はますます強力になり、パフォーマンスに基づいたモデルの区別が困難になる。本稿では,既存のLCM評価を,段階的に困難なタスクに変換する一般的な手法を提案する。結果から,これらのモデルの比較推論能力,特に OpenAI の o1-preview と Google の gemini-pro-1.5 の区別が明らかになった。
論文参考訳（メタデータ） (2024-11-03T11:39:50Z)
The LLM Effect: Are Humans Truly Using LLMs, or Are They Being Influenced By Them Instead? [60.01746782465275]
大規模言語モデル(LLM)は、様々な分析タスクにおいて、人間のパフォーマンスに近い能力を示している。本稿では,Human-LLMパートナーシップに着目した構造化ユーザスタディにより,特殊作業におけるLLMの効率と精度について検討する。
論文参考訳（メタデータ） (2024-10-07T02:30:18Z)
CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文参考訳（メタデータ） (2024-07-15T07:43:55Z)
Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文参考訳（メタデータ） (2024-05-02T20:42:28Z)
Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文参考訳（メタデータ） (2024-04-08T14:15:56Z)
Explaining Large Language Models Decisions Using Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-29T22:49:43Z)
Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文参考訳（メタデータ） (2024-03-22T14:47:35Z)
LLMs for Relational Reasoning: How Far are We? [8.840750655261251]
大規模言語モデル(LLM)は、下流タスクで最先端のパフォーマンスを達成することで、多くの領域に革命をもたらした。近年の取り組みにより,LSMは逐次決定問題の解決に乏しいことが示されている。
論文参考訳（メタデータ） (2024-01-17T08:22:52Z)
On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文参考訳（メタデータ） (2023-05-23T16:56:04Z)
Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。 LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文参考訳（メタデータ） (2023-05-03T07:28:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。