論文の概要: How Good Are LLMs at Out-of-Distribution Detection?
- arxiv url: http://arxiv.org/abs/2308.10261v4
- Date: Tue, 16 Apr 2024 11:38:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 02:09:49.293722
- Title: How Good Are LLMs at Out-of-Distribution Detection?
- Title(参考訳): アウト・オブ・ディストリビューション検出におけるLDMの有効性
- Authors: Bo Liu, Liming Zhan, Zexin Lu, Yujie Feng, Lei Xue, Xiao-Ming Wu,
- Abstract要約: アウト・オブ・ディストリビューション(OOD)検出は、機械学習(ML)モデルの信頼性を高める上で重要な役割を果たす。
本稿では,大規模言語モデル(LLM)の領域におけるOOD検出の先駆的実証研究について述べる。
- 参考スコア(独自算出の注目度): 13.35571704613836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Out-of-distribution (OOD) detection plays a vital role in enhancing the reliability of machine learning (ML) models. The emergence of large language models (LLMs) has catalyzed a paradigm shift within the ML community, showcasing their exceptional capabilities across diverse natural language processing tasks. While existing research has probed OOD detection with relative small-scale Transformers like BERT, RoBERTa and GPT-2, the stark differences in scales, pre-training objectives, and inference paradigms call into question the applicability of these findings to LLMs. This paper embarks on a pioneering empirical investigation of OOD detection in the domain of LLMs, focusing on LLaMA series ranging from 7B to 65B in size. We thoroughly evaluate commonly-used OOD detectors, scrutinizing their performance in both zero-grad and fine-tuning scenarios. Notably, we alter previous discriminative in-distribution fine-tuning into generative fine-tuning, aligning the pre-training objective of LLMs with downstream tasks. Our findings unveil that a simple cosine distance OOD detector demonstrates superior efficacy, outperforming other OOD detectors. We provide an intriguing explanation for this phenomenon by highlighting the isotropic nature of the embedding spaces of LLMs, which distinctly contrasts with the anisotropic property observed in smaller BERT family models. The new insight enhances our understanding of how LLMs detect OOD data, thereby enhancing their adaptability and reliability in dynamic environments. We have released the source code at \url{https://github.com/Awenbocc/LLM-OOD} for other researchers to reproduce our results.
- Abstract(参考訳): アウト・オブ・ディストリビューション(OOD)検出は、機械学習(ML)モデルの信頼性を高める上で重要な役割を果たす。
大規模言語モデル(LLM)の出現は、MLコミュニティ内のパラダイムシフトを触媒し、さまざまな自然言語処理タスクにまたがる優れた能力を示している。
既存の研究では、BERT、RoBERTa、GPT-2のような比較的小型のトランスフォーマーを用いたOOD検出が研究されているが、スケール、事前学習目標、推論パラダイムの相違は、これらの発見がLLMに適用可能であることを疑問視している。
本稿では, LLM 領域における OOD 検出の先駆的な研究に着手し, 7B から 65B までの LLaMA シリーズに着目した。
我々は,一般用OOD検出器を徹底的に評価し,ゼログレードおよび微調整のシナリオにおいて,その性能を精査した。
特に,LLMの事前学習目標を下流タスクと整合させて,従来の識別的in-distribution fine-tuningを生成的微調整に変更した。
以上の結果から, 簡易なコサイン距離OOD検出器は優れた有効性を示し, その他のOOD検出器よりも優れた性能を示した。
本研究では, LLM の埋め込み空間の等方性を強調し, より小さな BERT 系モデルで観測される異方性と明確に対比して, この現象の興味深い説明を行う。
この新たな洞察は、LDMがOODデータを検出する方法の理解を深め、動的環境における適合性と信頼性を高める。
我々は、他の研究者が結果を再現するためのソースコードを \url{https://github.com/Awenbocc/LLM-OOD} でリリースしました。
関連論文リスト
- Your Finetuned Large Language Model is Already a Powerful Out-of-distribution Detector [17.305076703258813]
我々は,事前学習された大言語モデル(LLM)と,その微調整された変種との比率を,アウト・オブ・ディストリビューション(OOD)検出の基準として再検討する。
本研究は,OOD検出に有効である可能性比を初めて示す。
論文 参考訳(メタデータ) (2024-04-07T10:32:49Z) - PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics [51.17512229589]
PoLLMgraphは、大規模言語モデルのためのモデルベースのホワイトボックス検出および予測手法である。
LLMの内部状態遷移ダイナミクスを解析することにより,幻覚を効果的に検出できることを示す。
我々の研究は、LLMのモデルベースのホワイトボックス分析の新しい手法を開拓し、LLMの振る舞いの複雑なダイナミクスをさらに探求し、理解し、洗練する研究コミュニティを動機付けている。
論文 参考訳(メタデータ) (2024-04-06T20:02:20Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Beyond the Known: Investigating LLMs Performance on Out-of-Domain Intent
Detection [34.135738700682055]
本稿では,ChatGPTで表される大規模言語モデル(LLM)を包括的に評価する。
LLMには強力なゼロショット機能と少数ショット機能があるが、フルリソースで微調整されたモデルに比べれば依然として不利である。
論文 参考訳(メタデータ) (2024-02-27T07:02:10Z) - Large Language Models are Not Stable Recommender Systems [45.941176155464824]
大規模言語モデル(LLM)における探索的研究の導入と位置バイアスの一貫したパターンの発見について述べる。
本稿では,2段階パイプラインを含むベイズ確率的フレームワークSTELLA(Stable LLM for Recommendation)を提案する。
我々のフレームワークは、既存のパターン情報を利用してLCMの不安定性を校正し、レコメンデーション性能を向上させることができる。
論文 参考訳(メタデータ) (2023-12-25T14:54:33Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Exploring Large Language Models for Multi-Modal Out-of-Distribution
Detection [67.68030805755679]
大きな言語モデル(LLM)は豊富な世界の知識をエンコードし、クラスごとに記述的な特徴を生成するよう促すことができる。
本稿では,LLMの選択的生成によるOOD検出性能向上のための世界知識の適用を提案する。
論文 参考訳(メタデータ) (2023-10-12T04:14:28Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。