論文の概要: Deep de Finetti: Recovering Topic Distributions from Large Language
Models
- arxiv url: http://arxiv.org/abs/2312.14226v1
- Date: Thu, 21 Dec 2023 16:44:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 17:14:44.960931
- Title: Deep de Finetti: Recovering Topic Distributions from Large Language
Models
- Title(参考訳): deep de finetti: 大きな言語モデルからトピック分布を復元する
- Authors: Liyi Zhang, R. Thomas McCoy, Theodore R. Sumers, Jian-Qiao Zhu, Thomas
L. Griffiths
- Abstract要約: 大規模言語モデル(LLM)は長く一貫性のあるテキストを生成できる。
LLMは文書を特徴付ける潜在構造を表現する必要がある。
本稿では,文書のトピック構造を補完する側面について考察する。
- 参考スコア(独自算出の注目度): 10.151434138893034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) can produce long, coherent passages of text,
suggesting that LLMs, although trained on next-word prediction, must represent
the latent structure that characterizes a document. Prior work has found that
internal representations of LLMs encode one aspect of latent structure, namely
syntax; here we investigate a complementary aspect, namely the document's topic
structure. We motivate the hypothesis that LLMs capture topic structure by
connecting LLM optimization to implicit Bayesian inference. De Finetti's
theorem shows that exchangeable probability distributions can be represented as
a mixture with respect to a latent generating distribution. Although text is
not exchangeable at the level of syntax, exchangeability is a reasonable
starting assumption for topic structure. We thus hypothesize that predicting
the next token in text will lead LLMs to recover latent topic distributions. We
examine this hypothesis using Latent Dirichlet Allocation (LDA), an
exchangeable probabilistic topic model, as a target, and we show that the
representations formed by LLMs encode both the topics used to generate
synthetic data and those used to explain natural corpus data.
- Abstract(参考訳): 大きな言語モデル(LLM)は長い一貫性のあるテキストのパスを生成することができ、LLMは次の単語の予測に基づいて訓練されているが、文書を特徴づける潜在構造を表現しなければならないことを示唆している。
従来の研究では、LCMの内部表現が潜在構造、すなわち構文の1つの側面を符号化していることが判明している。
我々は,LLM最適化と暗黙ベイズ推論を結びつけることで,LLMがトピック構造を捉えるという仮説を動機付けている。
ド・フィニッティの定理は、交換可能な確率分布は潜在生成分布に関して混合として表現できることを示している。
テキストは構文レベルでは交換できないが、トピック構造にとって交換性は合理的な開始仮定である。
したがって、テキストの次のトークンを予測すると、llmが潜在トピックの分布を回復すると仮定する。
この仮説を,交換可能な確率的トピックモデルであるlatent dirichlet allocation (lda) を用いて検証し,llms による表現が合成データの生成に用いられるトピックと自然コーパスデータを説明するために使用されるトピックの両方を符号化することを示す。
関連論文リスト
- A Hypothesis-Driven Framework for the Analysis of Self-Rationalising
Models [0.8702432681310401]
我々はベイジアンネットワークを用いて、タスクの解決方法に関する仮説を実装している。
結果のモデルはGPT-3.5と強い類似性は示さない。
今後の作業において、LCM決定をよりよく近似するフレームワークの可能性だけでなく、これの意味についても論じる。
論文 参考訳(メタデータ) (2024-02-07T12:26:12Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - The Matrix: A Bayesian learning model for LLMs [1.169389391551085]
大規模言語モデル(LLM)の振る舞いを理解するためのベイズ学習モデルを提案する。
提案手法では,先行した多項遷移確率行列で表される理想的な生成テキストモデルを構築する。
埋め込みと多項分布の間の写像の連続性について議論し、ディリクレ近似定理を任意の事前に近似する。
論文 参考訳(メタデータ) (2024-02-05T16:42:10Z) - Making Large Language Models A Better Foundation For Dense Retrieval [19.38740248464456]
デンス検索では,クエリとドキュメント間の意味的関係を表現するために,識別テキストの埋め込みを学習する必要がある。
意味理解におけるLLMの強い能力を考えると、大きな言語モデル(LLM)の使用の恩恵を受けるかもしれない。
本稿では,LLaRA (LLM adapted for dense RetrievAl) を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:10:35Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - IERL: Interpretable Ensemble Representation Learning -- Combining
CrowdSourced Knowledge and Distributed Semantic Representations [11.008412414253662]
大言語モデル(LLM)は、単語の意味を分散意味論の形でエンコードする。
近年の研究では、LLMは意図しない、一貫性のない、あるいは間違ったテキストを出力として生成する傾向があることが示されている。
本稿では,LLMとクラウドソースの知識表現を体系的に組み合わせた新しいアンサンブル学習手法であるInterpretable Ensemble Representation Learning (IERL)を提案する。
論文 参考訳(メタデータ) (2023-06-24T05:02:34Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Guiding the PLMs with Semantic Anchors as Intermediate Supervision:
Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。
第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。
いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T07:27:29Z) - ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。
我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文 参考訳(メタデータ) (2022-10-04T00:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。