論文の概要: Behavioral Testing: Can Large Language Models Implicitly Resolve Ambiguous Entities?
- arxiv url: http://arxiv.org/abs/2407.17125v1
- Date: Wed, 24 Jul 2024 09:48:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 14:23:43.935797
- Title: Behavioral Testing: Can Large Language Models Implicitly Resolve Ambiguous Entities?
- Title(参考訳): 振る舞いテスト: 大規模言語モデルは曖昧なエンティティを暗黙的に解決できるか?
- Authors: Anastasiia Sedova, Robert Litschko, Diego Frassinelli, Benjamin Roth, Barbara Plank,
- Abstract要約: 本研究では,現状の言語モデル (LLM) の能力と一貫性について分析する。
実験の結果、LSMは曖昧なプロンプトで性能が悪く、80%の精度しか達成できないことがわかった。
- 参考スコア(独自算出の注目度): 27.10502683001428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the major aspects contributing to the striking performance of large language models (LLMs) is the vast amount of factual knowledge accumulated during pre-training. Yet, many LLMs suffer from self-inconsistency, which raises doubts about their trustworthiness and reliability. In this paper, we focus on entity type ambiguity and analyze current state-of-the-art LLMs for their proficiency and consistency in applying their factual knowledge when prompted for entities under ambiguity. To do so, we propose an evaluation protocol that disentangles knowing from applying knowledge, and test state-of-the-art LLMs on 49 entities. Our experiments reveal that LLMs perform poorly with ambiguous prompts, achieving only 80% accuracy. Our results further demonstrate systematic discrepancies in LLM behavior and their failure to consistently apply information, indicating that the models can exhibit knowledge without being able to utilize it, significant biases for preferred readings, as well as self inconsistencies. Our study highlights the importance of handling entity ambiguity in future for more trustworthy LLMs
- Abstract(参考訳): 大規模言語モデル(LLM)の顕著な性能に寄与する主要な側面の1つは、事前学習中に蓄積された膨大な事実知識である。
しかし、多くのLDMは自己整合性に悩まされており、信頼性と信頼性に疑問を呈している。
本稿では,エンティティ型あいまいさに着目し,その能力と一貫性について現状のLCMを解析し,あいまいさのあるエンティティに対して,現実的な知識を適用した。
そこで本研究では,49個のエンティティ上で,知識の適用から知識を逸脱する評価プロトコルを提案し,最先端のLCMをテストした。
実験の結果,LSMは不明瞭なプロンプトで性能が悪く,80%の精度しか達成できないことがわかった。
以上の結果から,LLMの行動の系統的相違や,情報の一貫した適用の失敗が示され,このモデルが活用不可能な知識,好ましくない読みのバイアス,自己の不整合を呈する可能性が示唆された。
我々の研究は、より信頼性の高いLCMのための将来におけるエンティティ曖昧性を扱うことの重要性を強調している。
関連論文リスト
- Decoding AI Judgment: How LLMs Assess News Credibility and Bias [0.0]
大規模言語モデル(LLM)は、ニュースの信頼性を評価するためにますます使われているが、これらの判断の仕方についてはほとんど分かっていない。
本研究では、構造化された専門家主導のレーティングシステムに対して、最先端のLCMの信頼性と政治的分類をベンチマークする。
キーワード頻度, 文脈決定要因, ランク分布を調べることで, LLMが特定の言語特徴と信頼性をどのように関連付けるかを明らかにする。
論文 参考訳(メタデータ) (2025-02-06T18:52:10Z) - UAlign: Leveraging Uncertainty Estimations for Factuality Alignment on Large Language Models [41.67393607081513]
大きな言語モデル(LLM)は、しばしば、彼らが持っている事実の知識を正確に表現するのに苦労する。
知識境界を表現するために不確実性推定を利用するUAlignフレームワークを提案する。
提案したUAlign は LLM の能力を大幅に向上させ,既知の疑問に自信を持って答えることができることを示す。
論文 参考訳(メタデータ) (2024-12-16T14:14:27Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - TrustLLM: Trustworthiness in Large Language Models [446.5640421311468]
本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。
まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。
これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
論文 参考訳(メタデータ) (2024-01-10T22:07:21Z) - Examining LLMs' Uncertainty Expression Towards Questions Outside
Parametric Knowledge [35.067234242461545]
大規模言語モデル(LLM)は、適切な応答を生成するのに十分なパラメトリック知識が不足している状況において不確実性を表現する。
本研究の目的は,このような状況下でのLCMの行動の体系的調査であり,誠実さと役に立つことのトレードオフを強調することである。
論文 参考訳(メタデータ) (2023-11-16T10:02:40Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。