論文の概要: Pre-trained Large Language Models Learn Hidden Markov Models In-context
- arxiv url: http://arxiv.org/abs/2506.07298v2
- Date: Wed, 11 Jun 2025 05:17:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 16:13:48.019079
- Title: Pre-trained Large Language Models Learn Hidden Markov Models In-context
- Title(参考訳): 隠れマルコフモデルの文脈内で学習する事前学習型大規模言語モデル
- Authors: Yijia Dai, Zhaolin Gao, Yahya Sattar, Sarah Dean, Jennifer J. Sun,
- Abstract要約: 隠れモデル(HMM)は、ラテンチャン構造を持つシーケンシャルデータをモデリングするツールであるが、現実のデータに適合する。
事前学習された言語(LLM)は、文脈内学習によって生成されたデータを効果的に学習できることを示す。
- 参考スコア(独自算出の注目度): 10.06882436449576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hidden Markov Models (HMMs) are foundational tools for modeling sequential data with latent Markovian structure, yet fitting them to real-world data remains computationally challenging. In this work, we show that pre-trained large language models (LLMs) can effectively model data generated by HMMs via in-context learning (ICL)$\unicode{x2013}$their ability to infer patterns from examples within a prompt. On a diverse set of synthetic HMMs, LLMs achieve predictive accuracy approaching the theoretical optimum. We uncover novel scaling trends influenced by HMM properties, and offer theoretical conjectures for these empirical observations. We also provide practical guidelines for scientists on using ICL as a diagnostic tool for complex data. On real-world animal decision-making tasks, ICL achieves competitive performance with models designed by human experts. To our knowledge, this is the first demonstration that ICL can learn and predict HMM-generated sequences$\unicode{x2013}$an advance that deepens our understanding of in-context learning in LLMs and establishes its potential as a powerful tool for uncovering hidden structure in complex scientific data.
- Abstract(参考訳): 隠れマルコフモデル(HMM)は、潜在マルコフ構造を持つシーケンシャルデータをモデリングするための基礎的なツールであるが、実世界のデータに適合する。
本研究では,事前学習された大規模言語モデル (LLM) が,インコンテキスト学習 (ICL)$\unicode{x2013}$their のインプロンプト内の例からパターンを推論し,HMMが生成するデータを効果的にモデル化できることを示す。
多様な合成HMMにおいて、LLMは理論最適値に近づく予測精度を達成する。
我々は、HMM特性に影響された新しいスケーリング傾向を明らかにし、これらの経験的観測に対する理論的推測を提供する。
また、複雑なデータの診断ツールとしてICLを用いるための実践的ガイドラインも提供する。
現実世界の動物決定タスクにおいて、ICLは人間の専門家によって設計されたモデルとの競争性能を達成する。
我々の知る限り、これはICLがHMM生成シーケンスを学習し予測できる最初のデモである$\unicode{x2013}$anの進歩であり、LLMにおける文脈内学習の理解を深め、複雑な科学データに隠された構造を明らかにする強力なツールとしての可能性を確立している。
関連論文リスト
- Exploring Scaling Laws for EHR Foundation Models [17.84205864956449]
EHR基礎モデルのスケーリング法則に関する最初の実証的研究について述べる。
パラボリックなIsoFLOP曲線や計算,モデルパラメータ,データサイズ,臨床ユーティリティ間の電力-法則関係など,一貫したスケーリングパターンを同定する。
論文 参考訳(メタデータ) (2025-05-29T01:05:11Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Large Language Models are Powerful Electronic Health Record Encoders [4.520903886487343]
汎用大規模言語モデル(LLM)は、下流臨床予測タスクの表現にERHデータをエンコードするために用いられる。
LLMをベースとした埋め込みは、特殊EHRファンデーションモデルの性能にマッチしたり、超えたりできることを示す。
検査されたLSMモデルのうちの1つは、疾患発症、入院、死亡予測において優れた性能を達成する。
論文 参考訳(メタデータ) (2025-02-24T18:30:36Z) - The Performance of the LSTM-based Code Generated by Large Language Models (LLMs) in Forecasting Time Series Data [0.3749861135832072]
本稿では,ChatGPT, PaLM, LLama, FalconなどのLLMの時系列データ解析のためのディープラーニングモデルの生成における性能について検討し, 比較する。
その結果は、生成的AIを活用して、許容できる良さで優れた予測モデルを作成したいデータアナリストや実践者にとって有益である。
論文 参考訳(メタデータ) (2024-11-27T20:18:36Z) - Cross-Modal Learning for Chemistry Property Prediction: Large Language Models Meet Graph Machine Learning [0.0]
グラフニューラルネットワーク(GNN)の分析能力と大規模言語モデル(LLM)の言語生成・予測能力を利用する多モード融合(MMF)フレームワークを提案する。
本フレームワークは,グラフ構造化データのモデリングにおけるGNNの有効性とLLMのゼロショットおよび少数ショット学習能力を組み合わせることにより,オーバーフィッティングのリスクを低減し,予測の改善を実現する。
論文 参考訳(メタデータ) (2024-08-27T11:10:39Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。