論文の概要: Deep de Finetti: Recovering Topic Distributions from Large Language
Models
- arxiv url: http://arxiv.org/abs/2312.14226v1
- Date: Thu, 21 Dec 2023 16:44:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 17:14:44.960931
- Title: Deep de Finetti: Recovering Topic Distributions from Large Language
Models
- Title(参考訳): deep de finetti: 大きな言語モデルからトピック分布を復元する
- Authors: Liyi Zhang, R. Thomas McCoy, Theodore R. Sumers, Jian-Qiao Zhu, Thomas
L. Griffiths
- Abstract要約: 大規模言語モデル(LLM)は長く一貫性のあるテキストを生成できる。
LLMは文書を特徴付ける潜在構造を表現する必要がある。
本稿では,文書のトピック構造を補完する側面について考察する。
- 参考スコア(独自算出の注目度): 10.151434138893034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) can produce long, coherent passages of text,
suggesting that LLMs, although trained on next-word prediction, must represent
the latent structure that characterizes a document. Prior work has found that
internal representations of LLMs encode one aspect of latent structure, namely
syntax; here we investigate a complementary aspect, namely the document's topic
structure. We motivate the hypothesis that LLMs capture topic structure by
connecting LLM optimization to implicit Bayesian inference. De Finetti's
theorem shows that exchangeable probability distributions can be represented as
a mixture with respect to a latent generating distribution. Although text is
not exchangeable at the level of syntax, exchangeability is a reasonable
starting assumption for topic structure. We thus hypothesize that predicting
the next token in text will lead LLMs to recover latent topic distributions. We
examine this hypothesis using Latent Dirichlet Allocation (LDA), an
exchangeable probabilistic topic model, as a target, and we show that the
representations formed by LLMs encode both the topics used to generate
synthetic data and those used to explain natural corpus data.
- Abstract(参考訳): 大きな言語モデル(LLM)は長い一貫性のあるテキストのパスを生成することができ、LLMは次の単語の予測に基づいて訓練されているが、文書を特徴づける潜在構造を表現しなければならないことを示唆している。
従来の研究では、LCMの内部表現が潜在構造、すなわち構文の1つの側面を符号化していることが判明している。
我々は,LLM最適化と暗黙ベイズ推論を結びつけることで,LLMがトピック構造を捉えるという仮説を動機付けている。
ド・フィニッティの定理は、交換可能な確率分布は潜在生成分布に関して混合として表現できることを示している。
テキストは構文レベルでは交換できないが、トピック構造にとって交換性は合理的な開始仮定である。
したがって、テキストの次のトークンを予測すると、llmが潜在トピックの分布を回復すると仮定する。
この仮説を,交換可能な確率的トピックモデルであるlatent dirichlet allocation (lda) を用いて検証し,llms による表現が合成データの生成に用いられるトピックと自然コーパスデータを説明するために使用されるトピックの両方を符号化することを示す。
関連論文リスト
- Towards More Trustworthy and Interpretable LLMs for Code through Syntax-Grounded Explanations [48.07182711678573]
ASTrustは、モデル信頼度とプログラミング言語の構文構造の関係に基づく説明を生成する。
ASTからの構文構造のシーケンス, 熱マップ, グラフに基づく可視化を重畳した, モデル信頼度スコアを自動可視化する。
論文 参考訳(メタデータ) (2024-07-12T04:38:28Z) - Potential and Limitations of LLMs in Capturing Structured Semantics: A Case Study on SRL [78.80673954827773]
大きな言語モデル(LLM)は、言語理解を高め、解釈可能性を改善し、バイアスを減らすために構造化セマンティクスをキャプチャする上で重要な役割を果たす。
セマンティック・ロール・ラベルリング(SRL)を,構造化意味論を抽出するLLMの能力を探るための基本課題として用いることを提案する。
LLMは実際にセマンティック構造をキャプチャすることができ、スケールアップは常にポテンシャルを反映するわけではない。
エラーのかなりの重複は、LLMと訓練されていない人間の両方によって行われ、全てのエラーの約30%を占めることに私たちは驚いています。
論文 参考訳(メタデータ) (2024-05-10T11:44:05Z) - A Hypothesis-Driven Framework for the Analysis of Self-Rationalising
Models [0.8702432681310401]
我々はベイジアンネットワークを用いて、タスクの解決方法に関する仮説を実装している。
結果のモデルはGPT-3.5と強い類似性は示さない。
今後の作業において、LCM決定をよりよく近似するフレームワークの可能性だけでなく、これの意味についても論じる。
論文 参考訳(メタデータ) (2024-02-07T12:26:12Z) - Beyond the Black Box: A Statistical Model for LLM Reasoning and Inference [0.9898607871253774]
本稿では,大規模言語モデル(LLM)の振る舞いを説明する新しいベイズ学習モデルを提案する。
我々は,先行した多項遷移確率行列で表される理想的な生成テキストモデルに基づく理論的枠組みを開発し,LLMがこの行列をどのように近似するかを検討する。
論文 参考訳(メタデータ) (2024-02-05T16:42:10Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Guiding the PLMs with Semantic Anchors as Intermediate Supervision:
Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。
第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。
いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T07:27:29Z) - ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。
我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文 参考訳(メタデータ) (2022-10-04T00:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。