論文の概要: Towards Tracing Trustworthiness Dynamics: Revisiting Pre-training Period
of Large Language Models
- arxiv url: http://arxiv.org/abs/2402.19465v1
- Date: Thu, 29 Feb 2024 18:55:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 13:14:12.217818
- Title: Towards Tracing Trustworthiness Dynamics: Revisiting Pre-training Period
of Large Language Models
- Title(参考訳): 信頼度ダイナミクスの追跡に向けて:大規模言語モデルの事前学習期間を再考する
- Authors: Chen Qian, Jie Zhang, Wei Yao, Dongrui Liu, Zhenfei Yin, Yu Qiao, Yong
Liu, Jing Shao
- Abstract要約: プレトレーニング中のLLMの信頼性の探索を開拓した。
信頼性、プライバシー、毒性、公平性、堅牢性という5つの重要な側面に注目します。
我々は、同様の2相現象、すなわちフィッティングと圧縮を初めて観測した。
- 参考スコア(独自算出の注目度): 49.48324619809122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring the trustworthiness of large language models (LLMs) is crucial. Most
studies concentrate on fully pre-trained LLMs to better understand and improve
LLMs' trustworthiness. In this paper, to reveal the untapped potential of
pre-training, we pioneer the exploration of LLMs' trustworthiness during this
period, focusing on five key dimensions: reliability, privacy, toxicity,
fairness, and robustness. To begin with, we apply linear probing to LLMs. The
high probing accuracy suggests that \textit{LLMs in early pre-training can
already distinguish concepts in each trustworthiness dimension}. Therefore, to
further uncover the hidden possibilities of pre-training, we extract steering
vectors from a LLM's pre-training checkpoints to enhance the LLM's
trustworthiness. Finally, inspired by~\citet{choi2023understanding} that mutual
information estimation is bounded by linear probing accuracy, we also probe
LLMs with mutual information to investigate the dynamics of trustworthiness
during pre-training. We are the first to observe a similar two-phase
phenomenon: fitting and compression~\citep{shwartz2017opening}. This research
provides an initial exploration of trustworthiness modeling during LLM
pre-training, seeking to unveil new insights and spur further developments in
the field. We will make our code publicly accessible at
\url{https://github.com/ChnQ/TracingLLM}.
- Abstract(参考訳): 大きな言語モデル(LLM)の信頼性を確保することが重要である。
ほとんどの研究は、LLMの信頼性をよりよく理解し改善するために、完全に事前訓練されたLLMに集中している。
本稿では, 事前学習の可能性を明らかにするために, 信頼性, プライバシ, 毒性, 公正性, 堅牢性という5つの重要な側面に焦点をあてて, この期間におけるLLMの信頼性の探究を開拓した。
まず、線形探索をLLMに適用する。
早期事前学習における \textit{LLMs は、信頼度の各次元における概念を既に区別できることを示している。
そこで, 本研究は, LLMの信頼性を高めるために, LLMの事前学習チェックポイントからステアリングベクトルを抽出する。
最後に, 相互情報推定が線形探索精度によって境界づけられていることに着想を得て, 事前学習時の信頼性のダイナミクスを調べるために, 相互情報を用いたLEMを探索する。
我々は、同様の2相現象を初めて観測する: フィッティングと圧縮–\citep{shwartz2017opening} である。
この研究は、llm事前トレーニング中の信頼性モデリングの初期調査を提供し、新しい洞察を明らかにし、この分野のさらなる発展を促すことを目的としている。
コードは、 \url{https://github.com/ChnQ/TracingLLM}で公開します。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [95.78870389271832]
現代のMLLMを開発するための標準的な慣行は、視覚エンコーダ(s)からLLMに特徴を供給し、自然言語を監督する訓練を行うことである。
目的とする視覚表現の集合からLLMの隠れ表現に知識を抽出する最初の手法であるOLA-VLMを提案する。
OLA-VLMは様々なベンチマークで平均マージンを2.5%向上させ,CV-BenchのDepthタスクでは8.7%向上した。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - Dynamic Uncertainty Ranking: Enhancing Retrieval-Augmented In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z) - Exploring Forgetting in Large Language Model Pre-Training [18.858330348834777]
大型言語モデル(LLM)における全能モデル構築の難易度障害としての破滅的忘れ込み
我々は,事前学習における忘れの存在と測定を体系的に検討し,パープレキシティ(PPL)などの従来の指標に疑問を呈し,エンティティメモリの保持をよりよく検出するための新しい指標を導入した。
論文 参考訳(メタデータ) (2024-10-22T13:39:47Z) - SPOT: Text Source Prediction from Originality Score Thresholding [6.790905400046194]
対策は誤報を検出することを目的としており、通常、あらゆる情報の関連性を認識するために訓練されたドメイン固有モデルを含む。
情報の有効性を評価する代わりに,信頼の観点からLLM生成テキストを調べることを提案する。
論文 参考訳(メタデータ) (2024-05-30T21:51:01Z) - Traj-LLM: A New Exploration for Empowering Trajectory Prediction with Pre-trained Large Language Models [12.687494201105066]
本稿では,Traj-LLMを提案する。Large Language Models (LLMs) を用いて,エージェントの過去の/観測された軌跡やシーンセマンティクスから将来の動きを生成する可能性について検討する。
LLMの強力な理解能力は、ハイレベルなシーン知識とインタラクティブな情報のスペクトルを捉えている。
人為的な車線焦点認知機能を模倣し,先駆的なMambaモジュールを用いた車線認識確率論的学習を導入する。
論文 参考訳(メタデータ) (2024-05-08T09:28:04Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - TrustLLM: Trustworthiness in Large Language Models [446.5640421311468]
本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。
まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。
これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
論文 参考訳(メタデータ) (2024-01-10T22:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。