論文の概要: Towards Tracing Trustworthiness Dynamics: Revisiting Pre-training Period
of Large Language Models
- arxiv url: http://arxiv.org/abs/2402.19465v1
- Date: Thu, 29 Feb 2024 18:55:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 13:14:12.217818
- Title: Towards Tracing Trustworthiness Dynamics: Revisiting Pre-training Period
of Large Language Models
- Title(参考訳): 信頼度ダイナミクスの追跡に向けて:大規模言語モデルの事前学習期間を再考する
- Authors: Chen Qian, Jie Zhang, Wei Yao, Dongrui Liu, Zhenfei Yin, Yu Qiao, Yong
Liu, Jing Shao
- Abstract要約: プレトレーニング中のLLMの信頼性の探索を開拓した。
信頼性、プライバシー、毒性、公平性、堅牢性という5つの重要な側面に注目します。
我々は、同様の2相現象、すなわちフィッティングと圧縮を初めて観測した。
- 参考スコア(独自算出の注目度): 49.48324619809122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring the trustworthiness of large language models (LLMs) is crucial. Most
studies concentrate on fully pre-trained LLMs to better understand and improve
LLMs' trustworthiness. In this paper, to reveal the untapped potential of
pre-training, we pioneer the exploration of LLMs' trustworthiness during this
period, focusing on five key dimensions: reliability, privacy, toxicity,
fairness, and robustness. To begin with, we apply linear probing to LLMs. The
high probing accuracy suggests that \textit{LLMs in early pre-training can
already distinguish concepts in each trustworthiness dimension}. Therefore, to
further uncover the hidden possibilities of pre-training, we extract steering
vectors from a LLM's pre-training checkpoints to enhance the LLM's
trustworthiness. Finally, inspired by~\citet{choi2023understanding} that mutual
information estimation is bounded by linear probing accuracy, we also probe
LLMs with mutual information to investigate the dynamics of trustworthiness
during pre-training. We are the first to observe a similar two-phase
phenomenon: fitting and compression~\citep{shwartz2017opening}. This research
provides an initial exploration of trustworthiness modeling during LLM
pre-training, seeking to unveil new insights and spur further developments in
the field. We will make our code publicly accessible at
\url{https://github.com/ChnQ/TracingLLM}.
- Abstract(参考訳): 大きな言語モデル(LLM)の信頼性を確保することが重要である。
ほとんどの研究は、LLMの信頼性をよりよく理解し改善するために、完全に事前訓練されたLLMに集中している。
本稿では, 事前学習の可能性を明らかにするために, 信頼性, プライバシ, 毒性, 公正性, 堅牢性という5つの重要な側面に焦点をあてて, この期間におけるLLMの信頼性の探究を開拓した。
まず、線形探索をLLMに適用する。
早期事前学習における \textit{LLMs は、信頼度の各次元における概念を既に区別できることを示している。
そこで, 本研究は, LLMの信頼性を高めるために, LLMの事前学習チェックポイントからステアリングベクトルを抽出する。
最後に, 相互情報推定が線形探索精度によって境界づけられていることに着想を得て, 事前学習時の信頼性のダイナミクスを調べるために, 相互情報を用いたLEMを探索する。
我々は、同様の2相現象を初めて観測する: フィッティングと圧縮–\citep{shwartz2017opening} である。
この研究は、llm事前トレーニング中の信頼性モデリングの初期調査を提供し、新しい洞察を明らかにし、この分野のさらなる発展を促すことを目的としている。
コードは、 \url{https://github.com/ChnQ/TracingLLM}で公開します。
関連論文リスト
- Traj-LLM: A New Exploration for Empowering Trajectory Prediction with Pre-trained Large Language Models [12.687494201105066]
本稿では,Traj-LLMを提案する。Large Language Models (LLMs) を用いて,エージェントの過去の/観測された軌跡やシーンセマンティクスから将来の動きを生成する可能性について検討する。
LLMの強力な理解能力は、ハイレベルなシーン知識とインタラクティブな情報のスペクトルを捉えている。
人為的な車線焦点認知機能を模倣し,先駆的なMambaモジュールを用いた車線認識確率論的学習を導入する。
論文 参考訳(メタデータ) (2024-05-08T09:28:04Z) - Enhancing Confidence Expression in Large Language Models Through Learning from Past Experience [41.06726400259579]
大規模言語モデル(LLM)は、様々な下流タスクで顕著なパフォーマンスを示している。
信頼表現能力を高めるために,過去の経験から学習する方法(LePe)を提案する。
論文 参考訳(メタデータ) (2024-04-16T06:47:49Z) - Source-Aware Training Enables Knowledge Attribution in Language Models [81.13048060332775]
大規模言語モデル(LLM)は、事前訓練中に膨大な量の知識を学習するが、そのような知識の源泉にはあまり依存しないことが多い。
そこで本研究では,LLMが生成した応答をサポートする事前学習ソースを引用するために必要となる,本質的なソース引用の問題について検討する。
トレーニングレシピでは,事前学習データに対する忠実な帰属が,通常の事前学習と比較して,モデルの品質に大きな影響を与えない。
論文 参考訳(メタデータ) (2024-04-01T09:39:38Z) - Taming Pre-trained LLMs for Generalised Time Series Forecasting via
Cross-modal Knowledge Distillation [62.46869075841118]
我々はLLaTAと呼ばれる新しい大規模言語モデルと時系列アライメントフレームワークを提案し、時系列予測課題におけるLLMの可能性を完全に解き放つ。
提案手法は, クロスモーダルな知識蒸留に基づいて, 入力に依存しない静的知識と, 事前学習LLMにおける入力依存動的知識の両方を利用する。
論文 参考訳(メタデータ) (2024-03-12T04:04:38Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - The Calibration Gap between Model and Human Confidence in Large Language
Models [14.539888672603743]
大規模言語モデル(LLM)は、その予測がどの程度正確であるかを正確に評価し、伝達できるという意味で、十分に校正される必要がある。
最近の研究は、内部LCMの信頼性評価の品質に焦点を当てている。
本稿では,LLMの応答における外部人間の信頼度とモデルの内部信頼度との相違について検討する。
論文 参考訳(メタデータ) (2024-01-24T22:21:04Z) - TrustLLM: Trustworthiness in Large Language Models [446.5640421311468]
本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。
まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。
これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
論文 参考訳(メタデータ) (2024-01-10T22:07:21Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。