論文の概要: Large Language Models Are Implicitly Topic Models: Explaining and
Finding Good Demonstrations for In-Context Learning
- arxiv url: http://arxiv.org/abs/2301.11916v2
- Date: Thu, 4 May 2023 15:09:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 19:10:14.423427
- Title: Large Language Models Are Implicitly Topic Models: Explaining and
Finding Good Demonstrations for In-Context Learning
- Title(参考訳): 大規模言語モデルは必然的にトピックモデルである:インテクスト学習のための良い説明と発見
- Authors: Xinyi Wang, Wanrong Zhu, Michael Saxon, Mark Steyvers, William Yang
Wang
- Abstract要約: 注釈付きデータの集合から最適な実演を選択するアルゴリズムを提案する。
我々の経験的発見は,大規模言語モデルが潜在概念変数を暗黙的に推測する仮説を支持している。
- 参考スコア(独自算出の注目度): 93.98265639524426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, pre-trained large language models have demonstrated
remarkable efficiency in achieving an inference-time few-shot learning
capability known as in-context learning. However, existing literature has
highlighted the sensitivity of this capability to the selection of few-shot
demonstrations. The underlying mechanisms by which this capability arises from
regular language model pretraining objectives remain poorly understood. In this
study, we aim to examine the in-context learning phenomenon through a Bayesian
lens, viewing large language models as topic models that implicitly infer
task-related information from demonstrations. On this premise, we propose an
algorithm for selecting optimal demonstrations from a set of annotated data and
demonstrate a significant 12.5% improvement relative to the random selection
baseline, averaged over eight GPT2 and GPT3 models on eight different
real-world text classification datasets. Our empirical findings support our
hypothesis that large language models implicitly infer a latent concept
variable.
- Abstract(参考訳): 近年、事前学習された大規模言語モデルは、文脈内学習として知られる推論時間限定学習能力を達成する上で、著しく効率が向上している。
しかし、既存の文献では、この能力のわずかなデモの選択に対する感受性が強調されている。
この能力の基盤となるメカニズムは、通常の言語モデルで事前訓練された目的から生じる。
本研究では,実演からタスク関連情報を暗黙的に推測する話題モデルとして,ベイズレンズによる文脈内学習現象を検討することを目的とする。
そこで本研究では,8つの実世界のテキスト分類データセット上で,8つのGPT2モデルとGPT3モデルの平均値に対して,注釈付きデータの集合から最適なデモを選択するアルゴリズムを提案する。
我々の経験的発見は、大きな言語モデルが潜在概念変数を暗黙的に推論するという仮説を支持する。
関連論文リスト
- Zero-shot Model-based Reinforcement Learning using Large Language Models [12.930241182192988]
本稿では,マルコフ決定過程の動的状態を予測するために,事前学習した大規模言語モデルをどのように活用することができるかを検討する。
本稿では,モデルに基づく政策評価とデータ強化型オフ政治強化学習という2つの強化学習環境における概念実証の応用について述べる。
論文 参考訳(メタデータ) (2024-10-15T15:46:53Z) - Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics [51.17512229589]
PoLLMgraphは、大規模言語モデルのためのモデルベースのホワイトボックス検出および予測手法である。
LLMの内部状態遷移ダイナミクスを解析することにより,幻覚を効果的に検出できることを示す。
我々の研究は、LLMのモデルベースのホワイトボックス分析の新しい手法を開拓し、LLMの振る舞いの複雑なダイナミクスをさらに探求し、理解し、洗練する研究コミュニティを動機付けている。
論文 参考訳(メタデータ) (2024-04-06T20:02:20Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Learning to Reduce: Optimal Representations of Structured Data in
Prompting Large Language Models [42.16047343029512]
大規模言語モデル(LLM)は汎用AIエージェントとして広く利用されている。
本稿では,入力コンテキストの縮小バージョンを生成するために,言語モデルを微調整するフレームワークであるLearning to Reduceを提案する。
入力コンテキストから関連する証拠を選択する際に,本モデルが同等の精度を達成することを示す。
論文 参考訳(メタデータ) (2024-02-22T00:41:23Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Measuring Distributional Shifts in Text: The Advantage of Language
Model-Based Embeddings [11.393822909537796]
実運用における機械学習モデル監視の重要な部分は、入力と出力データのドリフトを測定することである。
大規模言語モデル(LLM)の最近の進歩は、意味的関係を捉える上での有効性を示している。
このような埋め込みを利用してテキストデータの分布変化を測定するクラスタリングに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-04T20:46:48Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。