Fugu-MT 論文翻訳(概要): Evaluation of an LLM in Identifying Logical Fallacies: A Call for Rigor When Adopting LLMs in HCI Research

論文の概要: Evaluation of an LLM in Identifying Logical Fallacies: A Call for Rigor When Adopting LLMs in HCI Research

arxiv url: http://arxiv.org/abs/2404.05213v1
Date: Mon, 8 Apr 2024 06:00:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-09 15:23:43.583425
Title: Evaluation of an LLM in Identifying Logical Fallacies: A Call for Rigor When Adopting LLMs in HCI Research
Title（参考訳）: 論理的誤りの同定におけるLLMの評価--HCI研究におけるLLMの採用におけるリゴールの呼びかけ
Authors: Gionnieve Lim, Simon T. Perrault,
Abstract要約: 本稿では,デジタル誤情報介入の一部となる論理的誤信を識別するLLMの評価について述べる。ラベル付きデータセットと比較すると,GPT-4の精度は0.79であり,無効または未同定のインスタンスを除外したユースケースでは0.90であることがわかった。
参考スコア（独自算出の注目度）: 3.4245017707416157
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There is increasing interest in the adoption of LLMs in HCI research. However, LLMs may often be regarded as a panacea because of their powerful capabilities with an accompanying oversight on whether they are suitable for their intended tasks. We contend that LLMs should be adopted in a critical manner following rigorous evaluation. Accordingly, we present the evaluation of an LLM in identifying logical fallacies that will form part of a digital misinformation intervention. By comparing to a labeled dataset, we found that GPT-4 achieves an accuracy of 0.79, and for our intended use case that excludes invalid or unidentified instances, an accuracy of 0.90. This gives us the confidence to proceed with the application of the LLM while keeping in mind the areas where it still falls short. The paper describes our evaluation approach, results and reflections on the use of the LLM for our intended task.
Abstract（参考訳）: HCI研究におけるLLMの採用への関心が高まっている。しかしながら、LSMはパナセアと見なされることが多いが、それはその能力と、それらが意図したタスクに適しているかどうかの監視が伴うためである。厳格な評価をした後、LCMを批判的に採用すべきである、と我々は主張する。そこで本稿では,デジタル誤情報介入の一部となる論理的誤信を識別するLLMの評価について述べる。ラベル付きデータセットと比較すると,GPT-4の精度は0.79であり,無効または未同定のインスタンスを除外したユースケースでは0.90であることがわかった。これにより、まだ不足している領域を念頭に置きながら、LCMの適用を進める自信が得られます。本稿では,LLMを意図したタスクに利用する際の評価手法,結果,考察について述べる。

関連論文リスト

CANDY: Benchmarking LLMs' Limitations and Assistive Potential in Chinese Misinformation Fact-Checking [16.10780837612994]
CANDYは,中国語の誤情報の事実チェックにおいて,大規模言語モデル(LLM)の機能と限界を評価するために設計されたベンチマークである。分析の結果,現在のLCMでは,チェーン・オブ・シークレットの推論や数発のプロンプトによって強化された場合でも,正確な事実チェックの結論が得られないことがわかった。 LLMは事実チェックには信頼性が低いが,本研究の結果から,シナリオにおける補助ツールとして展開する際の人的パフォーマンス向上の可能性が示唆された。
論文参考訳（メタデータ） (2025-09-04T07:33:44Z)
WakenLLM: Evaluating Reasoning Potential and Stability in LLMs via Fine-Grained Benchmarking [14.76224690767612]
大規模言語モデル(LLM)は、推論タスクにおいて未知のラベルを頻繁に出力する。我々は、モデル非能力に起因する未知の出力の一部を定量化するフレームワーク、WakenLLMを紹介した。
論文参考訳（メタデータ） (2025-07-22T03:21:48Z)
Latent Space Chain-of-Embedding Enables Output-free LLM Self-Evaluation [45.059818539256426]
我々は,LLMが出力不要な自己評価を行うことを可能にするために,潜在空間におけるChain-of-Embedding (CoE)を提案する。 CoEは、LLMの潜在的思考経路として扱うことができる、推論時間中に生成される全ての進行的な隠れ状態から構成される。
論文参考訳（メタデータ） (2024-10-17T15:09:24Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
Finding Blind Spots in Evaluator LLMs with Interpretable Checklists [23.381287828102995]
テキスト生成タスクにおける評価器として,Large Language Models (LLMs) の有効性を検討する。我々は,4つの重要な能力を評価する上で,評価用LLMの習熟度を評価するための新しいフレームワークであるFBIを提案する。
論文参考訳（メタデータ） (2024-06-19T10:59:48Z)
CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文参考訳（メタデータ） (2024-05-20T14:34:01Z)
When Do LLMs Need Retrieval Augmentation? Mitigating LLMs' Overconfidence Helps Retrieval Augmentation [66.01754585188739]
大規模言語モデル(LLM)は、特定の知識を持っていないことを知るのが困難であることが判明した。 Retrieval Augmentation (RA)はLLMの幻覚を緩和するために広く研究されている。本稿では,LLMの知識境界に対する認識を高めるためのいくつかの手法を提案する。
論文参考訳（メタデータ） (2024-02-18T04:57:19Z)
Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文参考訳（メタデータ） (2024-01-23T14:29:17Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)
Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。 LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文参考訳（メタデータ） (2023-10-11T14:18:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。