論文の概要: Latent Space Chain-of-Embedding Enables Output-free LLM Self-Evaluation
- arxiv url: http://arxiv.org/abs/2410.13640v1
- Date: Thu, 17 Oct 2024 15:09:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:22:33.310310
- Title: Latent Space Chain-of-Embedding Enables Output-free LLM Self-Evaluation
- Title(参考訳): 出力不要 LLM 自己評価を可能にする潜時空間結合型埋め込み
- Authors: Yiming Wang, Pei Zhang, Baosong Yang, Derek F. Wong, Rui Wang,
- Abstract要約: 我々は,LLMが出力不要な自己評価を行うことを可能にするために,潜在空間におけるChain-of-Embedding (CoE)を提案する。
CoEは、LLMの潜在的思考経路として扱うことができる、推論時間中に生成される全ての進行的な隠れ状態から構成される。
- 参考スコア(独自算出の注目度): 45.059818539256426
- License:
- Abstract: LLM self-evaluation relies on the LLM's own ability to estimate response correctness, which can greatly improve its deployment reliability. In this research track, we propose the Chain-of-Embedding (CoE) in the latent space to enable LLMs to perform output-free self-evaluation. CoE consists of all progressive hidden states produced during the inference time, which can be treated as the latent thinking path of LLMs. We find that when LLMs respond correctly and incorrectly, their CoE features differ, these discrepancies assist us in estimating LLM response correctness. Experiments in four diverse domains and seven LLMs fully demonstrate the effectiveness of our method. Meanwhile, its label-free design intent without any training and millisecond-level computational cost ensure real-time feedback in large-scale scenarios. More importantly, we provide interesting insights into LLM response correctness from the perspective of hidden state changes inside LLMs.
- Abstract(参考訳): LLM の自己評価は LLM 独自の応答の正しさを推定する能力に依存しており、デプロイメントの信頼性を大幅に向上させることができる。
本研究トラックでは,LLMが出力不要な自己評価を行うことを可能にするために,潜在空間におけるChain-of-Embedding (CoE)を提案する。
CoEは、LLMの潜在的思考経路として扱うことができる、推論時間中に生成される全ての進行的な隠れ状態から構成される。
LLMが正しく, 正しく応答すると, それらのCoE特性は異なり, それらの相違は, LLM応答の正しさを推定するのに役立つことがわかった。
4つの異なる領域と7つのLSMで実験を行い、本手法の有効性を実証した。
一方、トレーニングやミリ秒レベルの計算コストを伴わずにラベルのない設計意図により、大規模シナリオでのリアルタイムなフィードバックが保証される。
さらに, LLM内部の隠れ状態変化の観点から, LLM応答の正当性に関する興味深い知見を提供する。
関連論文リスト
- A Survey of Useful LLM Evaluation [20.048914787813263]
2段階フレームワーク:コア能力からエージェントへ」
コア能力」の段階では, LLMの推論能力, 社会的影響, ドメイン知識について議論した。
エージェントの段階では, LLMエージェントアプリケーションの動作, 計画, ツール学習の具体化を実演した。
論文 参考訳(メタデータ) (2024-06-03T02:20:03Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - When Do LLMs Need Retrieval Augmentation? Mitigating LLMs' Overconfidence Helps Retrieval Augmentation [66.01754585188739]
大規模言語モデル(LLM)は、特定の知識を持っていないことを知るのが困難であることが判明した。
Retrieval Augmentation (RA)はLLMの幻覚を緩和するために広く研究されている。
本稿では,LLMの知識境界に対する認識を高めるためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T04:57:19Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。