論文の概要: The Accuracy, Robustness, and Readability of LLM-Generated Sustainability-Related Word Definitions
- arxiv url: http://arxiv.org/abs/2502.00916v1
- Date: Sun, 02 Feb 2025 21:05:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:00:27.519704
- Title: The Accuracy, Robustness, and Readability of LLM-Generated Sustainability-Related Word Definitions
- Title(参考訳): LLMによる持続可能性関連単語定義の精度・ロバスト性・可読性
- Authors: Alice Heiman,
- Abstract要約: 標準化された定義を持つ共通言語は、効果的な気候に関する議論に不可欠である。
我々は, GPT-4o-mini, Llama3.1 8B, Mistral 7Bが生成した300の公式IPCC用語集を比較検討し, SBERT文の埋め込みによる付着性, 堅牢性, 可読性の解析を行った。
LLMは0.57-0.59 pm 0.15$の平均順守率を記録し、その定義はオリジナルのものよりも読みにくくなった。
- 参考スコア(独自算出の注目度): 0.6798775532273751
- License:
- Abstract: A common language with standardized definitions is crucial for effective climate discussions. However, concerns exist about LLMs misrepresenting climate terms. We compared 300 official IPCC glossary definitions with those generated by GPT-4o-mini, Llama3.1 8B, and Mistral 7B, analyzing adherence, robustness, and readability using SBERT sentence embeddings. The LLMs scored an average adherence of $0.57-0.59 \pm 0.15$, and their definitions proved harder to read than the originals. Model-generated definitions vary mainly among words with multiple or ambiguous definitions, showing the potential to highlight terms that need standardization. The results show how LLMs could support environmental discourse while emphasizing the need to align model outputs with established terminology for clarity and consistency.
- Abstract(参考訳): 標準化された定義を持つ共通言語は、効果的な気候に関する議論に不可欠である。
しかし、気候条件を誤って表すLLMについて懸念がある。
我々は, GPT-4o-mini, Llama3.1 8B, Mistral 7Bが生成した300の公式IPCC用語集を比較検討し, SBERT文の埋め込みによる付着性, 堅牢性, 可読性の解析を行った。
LLMは0.57-0.59 \pm 0.15$の平均順守率を記録し、その定義はオリジナルよりも読みにくくなった。
モデル生成の定義は、主に複数のまたは曖昧な定義を持つ単語によって異なり、標準化を必要とする用語を強調する可能性を示している。
その結果, LLMは, モデル出力を, 明瞭度と一貫性の確立した用語と整合する必要性を強調しつつ, 環境談話を支援することができることを示した。
関連論文リスト
- Value Compass Leaderboard: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は目覚ましいブレークスルーを達成し、その価値を人間と一致させることが必須になっている。
既存の評価は、バイアスや毒性といった安全性のリスクに焦点を絞っている。
既存のベンチマークはデータ汚染の傾向があります。
個人や文化にまたがる人的価値の多元的性質は、LLM値アライメントの測定において無視される。
論文 参考訳(メタデータ) (2025-01-13T05:53:56Z) - Refining Translations with LLMs: A Constraint-Aware Iterative Prompting Approach [7.5069214839655345]
大言語モデル(LLM)は機械翻訳(MT)において顕著な熟練性を示している
本稿では,意味的正確性に不可欠なキーワードを優先することで,翻訳忠実度を高める多段階のプロンプトチェーンを提案する。
FLORES-200およびWMTデータセットのベースモデルとしてLlamaとQwenを使用した実験は、ベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-11-13T05:40:24Z) - Do LLMs Really Adapt to Domains? An Ontology Learning Perspective [2.0755366440393743]
大規模言語モデル(LLM)は、様々なアプリケーション領域において、様々な自然言語処理タスクに対して前例のない進歩を見せている。
近年の研究では、LLMが知識ベースコンプリート(KBC)やオントロジー学習(OL)などの語彙意味タスクに活用できることが示されている。
LLMは本当にドメインに適応し、構造化知識の抽出に一貫性を持ち続けるのか、それとも推論の代わりに語彙感覚のみを学ぶのか?
論文 参考訳(メタデータ) (2024-07-29T13:29:43Z) - To Know or Not To Know? Analyzing Self-Consistency of Large Language Models under Ambiguity [27.10502683001428]
本稿では, 実体型あいまいさに着目し, 不明瞭な実体を刺激した場合の事実知識の適用において, 最先端のLCMの習熟度と一貫性を解析する。
実験の結果、LLMは正しいエンティティの読み取りを選択するのに苦労し、平均精度は85%、未特定のプロンプトで75%と低いことがわかった。
論文 参考訳(メタデータ) (2024-07-24T09:48:48Z) - Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。
ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:42:05Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Potential and Limitations of LLMs in Capturing Structured Semantics: A Case Study on SRL [78.80673954827773]
大きな言語モデル(LLM)は、言語理解を高め、解釈可能性を改善し、バイアスを減らすために構造化セマンティクスをキャプチャする上で重要な役割を果たす。
セマンティック・ロール・ラベルリング(SRL)を,構造化意味論を抽出するLLMの能力を探るための基本課題として用いることを提案する。
LLMは実際にセマンティック構造をキャプチャすることができ、スケールアップは常にポテンシャルを反映するわけではない。
エラーのかなりの重複は、LLMと訓練されていない人間の両方によって行われ、全てのエラーの約30%を占めることに私たちは驚いています。
論文 参考訳(メタデータ) (2024-05-10T11:44:05Z) - Best Practices for Text Annotation with Large Language Models [11.421942894219901]
LLM(Large Language Models)は、新しいテキストアノテーションの時代を担っている。
本稿では, 信頼性, 再現性, 倫理的利用に関する包括的基準とベストプラクティスを提案する。
論文 参考訳(メタデータ) (2024-02-05T15:43:50Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Semantic Consistency for Assuring Reliability of Large Language Models [9.876355290198639]
大規模言語モデル(LLM)は、様々な自然言語タスクに対して顕著な流布と能力を示す。
セマンティック一貫性の一般的な尺度を導入し、様々なLLMの性能を評価するために、この指標の複数バージョンを定式化する。
本稿では,Ask-to-Choose (A2C) と呼ばれる新しいプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2023-08-17T18:11:33Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。