論文の概要: Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models
- arxiv url: http://arxiv.org/abs/2404.09338v1
- Date: Sun, 14 Apr 2024 19:45:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 14:28:37.572490
- Title: Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models
- Title(参考訳): エントロピーガイド付き外挿デコードによる大規模言語モデルのファクタリティ向上
- Authors: Souvik Das, Lifeng Jin, Linfeng Song, Haitao Mi, Baolin Peng, Dong Yu,
- Abstract要約: 大きな言語モデル(LLM)は印象的な自然言語能力を示すが、幻覚に苦しむ。
最近の研究は推論時の事実性を改善するための復号化技術に焦点を当てている。
- 参考スコア(独自算出の注目度): 55.45444773200529
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) exhibit impressive natural language capabilities but suffer from hallucination -- generating content ungrounded in the realities of training data. Recent work has focused on decoding techniques to improve factuality during inference by leveraging LLMs' hierarchical representation of factual knowledge, manipulating the predicted distributions at inference time. Current state-of-the-art approaches refine decoding by contrasting early-exit distributions from a lower layer with the final layer to exploit information related to factuality within the model forward procedure. However, such methods often assume the final layer is the most reliable and the lower layer selection process depends on it. In this work, we first propose extrapolation of critical token probabilities beyond the last layer for more accurate contrasting. We additionally employ layer-wise entropy-guided lower layer selection, decoupling the selection process from the final layer. Experiments demonstrate strong performance - surpassing state-of-the-art on multiple different datasets by large margins. Analyses show different kinds of prompts respond to different selection strategies.
- Abstract(参考訳): 大きな言語モデル(LLM)は印象的な自然言語能力を示すが、幻覚に苦しむ。
最近の研究は、LLMの事実知識の階層的表現を活用し、予測された分布を推論時に操作することにより、推論中の事実性を改善するための復号化技術に重点を置いている。
現在の最先端技術は、モデルフォワードプロシージャ内の事実性に関連する情報を活用するために、下層から最終層への早期出力分布を対比することにより、精巧な復号化にアプローチしている。
しかし、このような手法はしばしば最終層が最も信頼性が高く、下位層の選択プロセスがそれに依存すると仮定する。
そこで本研究では, より正確なコントラスト化のために, 臨界トークン確率を最終層を超えて外挿する手法を提案する。
また,最終層から選択過程を分離し,層ワイドエントロピー誘導下層選択を採用する。
実験では、複数の異なるデータセットの最先端を大きなマージンで超越した、強力なパフォーマンスを示す。
分析は、異なる選択戦略に対応する異なる種類のプロンプトを示す。
関連論文リスト
- Lower Layer Matters: Alleviating Hallucination via Multi-Layer Fusion Contrastive Decoding with Truthfulness Refocused [44.37155553647802]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて例外的な性能を示している。
時に、期待された出力と事実的に不正確な、あるいは不一致なコンテンツを生成する。
近年の研究では,幻覚誘発モデルとアマチュアモデルとの対比的復号化について検討している。
LOL(Lower Layer Matters)と呼ばれる新しいコントラストデコーディングフレームワークを導入する。
論文 参考訳(メタデータ) (2024-08-16T14:23:59Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - The Benefits of Bad Advice: Autocontrastive Decoding across Model Layers [14.596485032985328]
モデル層間の漸進的な改善により、推論中に上位層と下位層のコントラストから追加情報を得ることが可能である、と我々は主張する。
テキスト生成出力を改善するために,レイヤ間のコントラストを利用した新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-02T17:42:37Z) - Towards Efficient Fine-tuning of Pre-trained Code Models: An
Experimental Study and Beyond [52.656743602538825]
微調整された事前訓練されたコードモデルは、大きな計算コストを発生させる。
我々は、レイヤーワイドで事前訓練された表現と、微調整中に符号化されたコード知識に何が起こるのかを実験的に検討する。
本稿では,レイヤ凍結により事前学習したコードモデルを効率的に微調整するTellyを提案する。
論文 参考訳(メタデータ) (2023-04-11T13:34:13Z) - Fine-Tuning Pre-Trained Language Models Effectively by Optimizing
Subnetworks Adaptively [32.001304911395756]
微調整時の大規模事前学習モデルの動的選択(DPS)アルゴリズムを提案する。
GLUEベンチマークの実験では、DPSは全体的な性能と安定性の点で従来の微調整法よりも優れていた。
論文 参考訳(メタデータ) (2022-11-03T08:32:12Z) - Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。
実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文 参考訳(メタデータ) (2021-12-10T20:46:13Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - SuperDeConFuse: A Supervised Deep Convolutional Transform based Fusion
Framework for Financial Trading Systems [29.411173536818477]
本研究は、金融株取引のための教師付きマルチチャネル時系列学習フレームワークを提案する。
我々のアプローチは、データチャネルを別々の1次元畳み込み層で処理し、それから出力を一連の完全に接続された層で融合し、最終的にソフトマックス分類層を適用します。
数値実験により,提案モデルにより,ストックトレーディングの現実問題に対する最先端のディープラーニング技術よりもかなり優れた結果が得られることを確認した。
論文 参考訳(メタデータ) (2020-11-09T11:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。