論文の概要: OnionEval: An Unified Evaluation of Fact-conflicting Hallucination for Small-Large Language Models
- arxiv url: http://arxiv.org/abs/2501.12975v1
- Date: Wed, 22 Jan 2025 15:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:30:07.023158
- Title: OnionEval: An Unified Evaluation of Fact-conflicting Hallucination for Small-Large Language Models
- Title(参考訳): OnionEval:小言語モデルのためのFact-Conflicting Hallucinationの統一評価
- Authors: Chongren Sun, Yuran Li, Di Wu, Benoit Boulet,
- Abstract要約: OnionEvalは、異なる文脈レベルにわたる小さなLLMの事実にかかわる幻覚傾向を評価するように設計されている。
その結果,SLLM の重要な特徴は,事実分析に優れ,文脈推論による課題に直面していることがわかった。
さらなる調査は、単純なChain-of-Thought戦略がこれらの制限を大幅に削減できることを示している。
- 参考スコア(独自算出の注目度): 6.727694415099734
- License:
- Abstract: Large Language Models (LLMs) are highly capable but require significant computational resources for both training and inference. Within the LLM family, smaller models (those with fewer than 10 billion parameters) also perform well across various tasks. However, these smaller models share similar limitations to their larger counterparts, including the tendency to hallucinate. Despite the existence of many benchmarks to evaluate hallucination in LLMs, few have specifically focused on small LLMs (SLLMs). Additionally, SLLMs show widely varying performance across different benchmarks. In this paper, we introduce OnionEval, a multi-layer structured framework with a specific metric called the context-influence score (CI), designed to effectively assess the fact-conflicting hallucination tendencies of small LLMs across different contextual levels. Our experimental results reveal a key feature of SLLMs: they excel in factual analysis but face challenges with context reasoning. Further investigation shows that a simple Chain-of-Thought strategy can significantly reduce these limitations, improving the practical usefulness of SLLMs in real-world applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は高い能力を持つが、トレーニングと推論の両方にかなりの計算資源を必要とする。
LLMファミリーでは、より小さなモデル(パラメータが100億未満であるモデル)も様々なタスクでうまく機能する。
しかし、これらの小さなモデルは、幻覚の傾向を含むより大きなモデルと同じような制限を共有している。
LLMの幻覚を評価するためのベンチマークが多数存在するにもかかわらず、小さなLSM(SLLM)に特化しているものはほとんどない。
さらに、SLLMは様々なベンチマークで幅広い性能を示す。
本稿では,コンテキスト影響スコア(CI)と呼ばれる特定の指標を持つ多層構造体であるOnionEvalについて紹介する。
実験結果からSLLMの重要な特徴は,事実分析に優れるが,文脈推論による課題に直面している点である。
さらなる調査により、単純なChain-of-Thought戦略はこれらの制限を大幅に低減し、現実のアプリケーションにおけるSLLMの実用性を向上させることが示されている。
関連論文リスト
- Investigating the Role of Prompting and External Tools in Hallucination Rates of Large Language Models [0.0]
LLM(Large Language Models)は、人間の可読テキストの広範なコーパスに基づいて訓練された強力な計算モデルであり、汎用的な言語理解と生成を可能にする。
これらの成功にもかかわらず、LLMは幻覚と呼ばれる不正確さをしばしば生み出す。
本稿では,LLMにおける幻覚の低減を目的とした,異なるプロンプト戦略とフレームワークの実証評価を行う。
論文 参考訳(メタデータ) (2024-10-25T08:34:53Z) - The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism [39.392450788666814]
大規模言語モデル(LLM)の現在の評価は、しばしば非決定論を見落としている。
greedyデコーディングは一般的に、最も評価されたタスクのサンプリング方法よりも優れています。
より小型のLPMはGPT-4-Turboのような大型のモデルと一致するか、超えることができる。
論文 参考訳(メタデータ) (2024-07-15T06:12:17Z) - Analyzing LLM Behavior in Dialogue Summarization: Unveiling Circumstantial Hallucination Trends [38.86240794422485]
対話要約のための大規模言語モデルの忠実度を評価する。
私たちの評価は幻覚を構成するものに関して微妙な点を呈する。
既存の指標より優れた微細な誤差検出のための2つのプロンプトベースのアプローチを導入する。
論文 参考訳(メタデータ) (2024-06-05T17:49:47Z) - Why Lift so Heavy? Slimming Large Language Models by Cutting Off the
Layers [2.1165011830664673]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対処する際、優れた能力を持っている。
これらのモデルの厳密なサイズは、ストレージ、トレーニング、推論において、層積み重ねによる数十億のパラメータを含むため、課題を生じさせる。
レイヤが少なくても、LLMは、特にテキスト分類タスクのプロンプトベースの微調整において、類似またはより良いパフォーマンスレベルを維持していることを示す。
論文 参考訳(メタデータ) (2024-02-18T20:47:10Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination
Evaluation [58.19101663976327]
マルチモーダル大規模言語モデル(MLLM)は幻覚の重要な課題に直面する。
MLLMの幻覚を評価することは、モデルの改善と実践的なアプリケーション展開においてますます重要になっている。
生成タスクと識別タスクの両方を評価するために, LLMフリーな多次元ベンチマークAMBERを提案する。
論文 参考訳(メタデータ) (2023-11-13T15:25:42Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Siren's Song in the AI Ocean: A Survey on Hallucination in Large
Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。
LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文 参考訳(メタデータ) (2023-09-03T16:56:48Z) - Halo: Estimation and Reduction of Hallucinations in Open-Source Weak
Large Language Models [11.497989461290793]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらした
パラメータが少ないオープンソースのLCMは、より大きなものに比べて深刻な幻覚に悩まされることが多い。
本稿では,より弱いオープンソース LLM の代表であるBLOOM 7B における幻覚の計測と低減に焦点をあてる。
論文 参考訳(メタデータ) (2023-08-22T20:12:49Z) - Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。
実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文 参考訳(メタデータ) (2023-07-16T15:11:01Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。