論文の概要: LM-Polygraph: Uncertainty Estimation for Language Models
- arxiv url: http://arxiv.org/abs/2311.07383v1
- Date: Mon, 13 Nov 2023 15:08:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 13:57:39.234431
- Title: LM-Polygraph: Uncertainty Estimation for Language Models
- Title(参考訳): LM-Polygraph:言語モデルの不確かさ推定
- Authors: Ekaterina Fadeeva, Roman Vashurin, Akim Tsvigun, Artem Vazhentsev,
Sergey Petrakov, Kirill Fedyanin, Daniil Vasilev, Elizaveta Goncharova,
Alexander Panchenko, Maxim Panov, Timothy Baldwin, Artem Shelmanov
- Abstract要約: 不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
- 参考スコア(独自算出の注目度): 71.21409522341482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in the capabilities of large language models (LLMs) have
paved the way for a myriad of groundbreaking applications in various fields.
However, a significant challenge arises as these models often "hallucinate",
i.e., fabricate facts without providing users an apparent means to discern the
veracity of their statements. Uncertainty estimation (UE) methods are one path
to safer, more responsible, and more effective use of LLMs. However, to date,
research on UE methods for LLMs has been focused primarily on theoretical
rather than engineering contributions. In this work, we tackle this issue by
introducing LM-Polygraph, a framework with implementations of a battery of
state-of-the-art UE methods for LLMs in text generation tasks, with unified
program interfaces in Python. Additionally, it introduces an extendable
benchmark for consistent evaluation of UE techniques by researchers, and a demo
web application that enriches the standard chat dialog with confidence scores,
empowering end-users to discern unreliable responses. LM-Polygraph is
compatible with the most recent LLMs, including BLOOMz, LLaMA-2, ChatGPT, and
GPT-4, and is designed to support future releases of similarly-styled LMs.
- Abstract(参考訳): 大規模言語モデル(LLMs)の能力の最近の進歩は、様々な分野において、数多くの画期的な応用の道を開いた。
しかし、これらのモデルがしばしば「幻覚」、すなわち、ユーザに彼らの言明の真偽を識別する明確な手段を与えることなく事実をつくりだすため、重大な課題が発生する。
不確実性推定(UE)法は、より安全で、より責任があり、より効果的なLLMの使用方法である。
しかし、これまでLLMのUE法の研究は、工学的な貢献よりも理論的な研究に重点を置いてきた。
本研究では,テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリ実装と,Pythonの統一プログラムインタフェースを備えたフレームワークであるLM-Polygraphを導入することで,この問題に対処する。
さらに、研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼度スコア付き標準チャットダイアログを強化し、エンドユーザが信頼できない応答を識別できるようにするデモWebアプリケーションも導入されている。
LM-PolygraphはBLOOMz、LLaMA-2、ChatGPT、GPT-4といった最新のLLMと互換性があり、同様のスタイルのLMの将来のリリースをサポートするように設計されている。
関連論文リスト
- Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。
本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。
この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文 参考訳(メタデータ) (2024-05-30T03:00:47Z) - Evaluation of LLMs on Syntax-Aware Code Fill-in-the-Middle Tasks [12.629516072317331]
Syntax-Aware Fill-in-the-Middle (SAFIM)は、コードFill-in-the-Middle(FIM)タスク上でLLM(Large Language Models)を評価するための新しいベンチマークである。
このベンチマークは、コードブロックや条件式などのプログラム構造の構文対応補完に焦点を当てている。
論文 参考訳(メタデータ) (2024-03-07T05:05:56Z) - Found in the Middle: How Language Models Use Long Contexts Better via
Plug-and-Play Positional Encoding [78.36702055076456]
本稿では,マルチスケール位置決めについて紹介する。
(Ms-PoE)は、シンプルで効果的なプラグアンドプレイ方式で、キャパシティを向上させる。
LLMはコンテキストの中央に位置する関連情報を扱う。
論文 参考訳(メタデータ) (2024-03-05T04:58:37Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Beyond Text: Unveiling Multimodal Proficiency of Large Language Models
with MultiAPI Benchmark [11.572835837392867]
この研究は、包括的な大規模APIベンチマークデータセットのパイオニアであるMultiAPIを紹介した。
235の多様なAPIコールと2,038のコンテキストプロンプトで構成されており、マルチモーダルタスクを扱うツール拡張LDMのユニークなプラットフォーム評価を提供する。
LLMはAPIコール決定の熟練度を示すが,ドメイン識別や関数選択,引数生成といった課題に直面している。
論文 参考訳(メタデータ) (2023-11-21T23:26:05Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。