論文の概要: Towards Tracing Trustworthiness Dynamics: Revisiting Pre-training Period
of Large Language Models
- arxiv url: http://arxiv.org/abs/2402.19465v1
- Date: Thu, 29 Feb 2024 18:55:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 13:14:12.217818
- Title: Towards Tracing Trustworthiness Dynamics: Revisiting Pre-training Period
of Large Language Models
- Title(参考訳): 信頼度ダイナミクスの追跡に向けて:大規模言語モデルの事前学習期間を再考する
- Authors: Chen Qian, Jie Zhang, Wei Yao, Dongrui Liu, Zhenfei Yin, Yu Qiao, Yong
Liu, Jing Shao
- Abstract要約: プレトレーニング中のLLMの信頼性の探索を開拓した。
信頼性、プライバシー、毒性、公平性、堅牢性という5つの重要な側面に注目します。
我々は、同様の2相現象、すなわちフィッティングと圧縮を初めて観測した。
- 参考スコア(独自算出の注目度): 49.48324619809122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring the trustworthiness of large language models (LLMs) is crucial. Most
studies concentrate on fully pre-trained LLMs to better understand and improve
LLMs' trustworthiness. In this paper, to reveal the untapped potential of
pre-training, we pioneer the exploration of LLMs' trustworthiness during this
period, focusing on five key dimensions: reliability, privacy, toxicity,
fairness, and robustness. To begin with, we apply linear probing to LLMs. The
high probing accuracy suggests that \textit{LLMs in early pre-training can
already distinguish concepts in each trustworthiness dimension}. Therefore, to
further uncover the hidden possibilities of pre-training, we extract steering
vectors from a LLM's pre-training checkpoints to enhance the LLM's
trustworthiness. Finally, inspired by~\citet{choi2023understanding} that mutual
information estimation is bounded by linear probing accuracy, we also probe
LLMs with mutual information to investigate the dynamics of trustworthiness
during pre-training. We are the first to observe a similar two-phase
phenomenon: fitting and compression~\citep{shwartz2017opening}. This research
provides an initial exploration of trustworthiness modeling during LLM
pre-training, seeking to unveil new insights and spur further developments in
the field. We will make our code publicly accessible at
\url{https://github.com/ChnQ/TracingLLM}.
- Abstract(参考訳): 大きな言語モデル(LLM)の信頼性を確保することが重要である。
ほとんどの研究は、LLMの信頼性をよりよく理解し改善するために、完全に事前訓練されたLLMに集中している。
本稿では, 事前学習の可能性を明らかにするために, 信頼性, プライバシ, 毒性, 公正性, 堅牢性という5つの重要な側面に焦点をあてて, この期間におけるLLMの信頼性の探究を開拓した。
まず、線形探索をLLMに適用する。
早期事前学習における \textit{LLMs は、信頼度の各次元における概念を既に区別できることを示している。
そこで, 本研究は, LLMの信頼性を高めるために, LLMの事前学習チェックポイントからステアリングベクトルを抽出する。
最後に, 相互情報推定が線形探索精度によって境界づけられていることに着想を得て, 事前学習時の信頼性のダイナミクスを調べるために, 相互情報を用いたLEMを探索する。
我々は、同様の2相現象を初めて観測する: フィッティングと圧縮–\citep{shwartz2017opening} である。
この研究は、llm事前トレーニング中の信頼性モデリングの初期調査を提供し、新しい洞察を明らかにし、この分野のさらなる発展を促すことを目的としている。
コードは、 \url{https://github.com/ChnQ/TracingLLM}で公開します。
関連論文リスト
- Dynamic Uncertainty Ranking: Enhancing In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z) - Exploring Forgetting in Large Language Model Pre-Training [18.858330348834777]
大型言語モデル(LLM)における全能モデル構築の難易度障害としての破滅的忘れ込み
我々は,事前学習における忘れの存在と測定を体系的に検討し,パープレキシティ(PPL)などの従来の指標に疑問を呈し,エンティティメモリの保持をよりよく検出するための新しい指標を導入した。
論文 参考訳(メタデータ) (2024-10-22T13:39:47Z) - SPOT: Text Source Prediction from Originality Score Thresholding [6.790905400046194]
対策は誤報を検出することを目的としており、通常、あらゆる情報の関連性を認識するために訓練されたドメイン固有モデルを含む。
情報の有効性を評価する代わりに,信頼の観点からLLM生成テキストを調べることを提案する。
論文 参考訳(メタデータ) (2024-05-30T21:51:01Z) - Traj-LLM: A New Exploration for Empowering Trajectory Prediction with Pre-trained Large Language Models [12.687494201105066]
本稿では,Traj-LLMを提案する。Large Language Models (LLMs) を用いて,エージェントの過去の/観測された軌跡やシーンセマンティクスから将来の動きを生成する可能性について検討する。
LLMの強力な理解能力は、ハイレベルなシーン知識とインタラクティブな情報のスペクトルを捉えている。
人為的な車線焦点認知機能を模倣し,先駆的なMambaモジュールを用いた車線認識確率論的学習を導入する。
論文 参考訳(メタデータ) (2024-05-08T09:28:04Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - TrustLLM: Trustworthiness in Large Language Models [446.5640421311468]
本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。
まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。
これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
論文 参考訳(メタデータ) (2024-01-10T22:07:21Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。