論文の概要: Boltzmann-GPT: Bridging Energy-Based World Models and Language Generation
- arxiv url: http://arxiv.org/abs/2601.17094v1
- Date: Fri, 23 Jan 2026 12:21:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.226211
- Title: Boltzmann-GPT: Bridging Energy-Based World Models and Language Generation
- Title(参考訳): Boltzmann-GPT:ブリッジングエネルギーベース世界モデルと言語生成
- Authors: Junichiro Niimi,
- Abstract要約: 我々は、言語モデルから世界モデルを明示的に分離する、口は脳ではないというアーキテクチャの原則を提案する。
Amazonのスマートフォンレビューを使って、このフレームワークを消費者レビュードメインでインスタンス化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) generate fluent text, yet whether they truly understand the world or merely produce plausible language about it remains contested. We propose an architectural principle, the mouth is not the brain, that explicitly separates world models from language models. Our architecture comprises three components: a Deep Boltzmann Machine (DBM) that captures domain structure as an energy-based world model, an adapter that projects latent belief states into embedding space, and a frozen GPT-2 that provides linguistic competence without domain knowledge. We instantiate this framework in the consumer review domain using Amazon smartphone reviews. Experiments demonstrate that (1) conditioning through the world model yields significantly higher sentiment correlation, lower perplexity, and greater semantic similarity compared to prompt-based generation alone; (2) the DBM's energy function distinguishes coherent from incoherent market configurations, assigning higher energy to implausible brand-price combinations; and (3) interventions on specific attributes propagate causally to generated text with intervened outputs exhibiting distributions statistically consistent with naturally occurring samples sharing the target configuration. These findings suggest that even small-scale language models can achieve consistent, controllable generation when connected to an appropriate world model, providing empirical support for separating linguistic competence from world understanding.
- Abstract(参考訳): 大規模言語モデル(LLM)は、流動的なテキストを生成するが、それらが真に世界を理解しているか、あるいは単にそれが議論されているかは問わない。
我々は、言語モデルから世界モデルを明示的に分離する、口は脳ではないというアーキテクチャの原則を提案する。
我々のアーキテクチャは3つのコンポーネントから構成される: エネルギーベースの世界モデルとしてドメイン構造をキャプチャするDeep Boltzmann Machine (DBM)、潜在信念状態を埋め込み空間に投影するアダプタ、ドメイン知識のない言語能力を提供するフリーズGPT-2。
Amazonのスマートフォンレビューを使って、このフレームワークを消費者レビュードメインでインスタンス化する。
2)DBMのエネルギー関数は、コヒーレントと不整合な市場構成を区別し、高エネルギーを不明瞭なブランドと価格の組み合わせに割り当て、(3)特定の属性への介入は、目的構成を共有する自然発生サンプルと統計的に整合した分布を示す間欠的な出力を持つ生成テキストに因果的に伝播することを示した。
これらの結果から,小規模な言語モデルであっても,適切な世界モデルに接続することで,一貫した制御可能な生成を達成できることが示唆された。
関連論文リスト
- A Unified Framework for Emotion Recognition and Sentiment Analysis via Expert-Guided Multimodal Fusion with Large Language Models [16.195689085967004]
本稿では,エキスパート誘導型マルチモーダル融合と大規模言語モデルを組み合わせた統合フレームワーク EGMF を提案する。
提案手法では, 微妙な感情的ニュアンスに対するきめ細かなローカルエキスパート, クロスモーダルな関係に対する意味的相関の専門家, 長距離依存に対するグローバルなコンテキストエキスパートの3つの専門的ネットワークを特徴とする。
論文 参考訳(メタデータ) (2026-01-12T14:21:32Z) - FysicsWorld: A Unified Full-Modality Benchmark for Any-to-Any Understanding, Generation, and Reasoning [52.88164697048371]
FysicsWorldは、画像、ビデオ、オーディオ、テキスト間の双方向入力出力をサポートする最初の統一されたフルモダリティベンチマークである。
FysicsWorldには16の主要なタスクと3,268のキュレートされたサンプルが含まれており、40以上の高品質なソースから集約されている。
論文 参考訳(メタデータ) (2025-12-14T16:41:29Z) - ArtGen: Conditional Generative Modeling of Articulated Objects in Arbitrary Part-Level States [9.721009445297716]
ArtGenは、正確な幾何学とコヒーレント・キネマティクスを備えた3Dオブジェクトを生成することができる条件付き拡散ベースのフレームワークである。
具体的には、ArtGenはグローバルキネマティック一貫性を明示的に実施するために、クロスステートなMonte Carloサンプリングを使用している。
合成3D-VAE潜伏剤は局所的言語的注意に先行して強化され、微細な幾何学的関係と大域的部分的関係を効果的に捉える。
論文 参考訳(メタデータ) (2025-12-13T17:00:03Z) - Forging GEMs: Advancing Greek NLP through Quality-Based Corpus Curation [37.2909720705691]
ギリシャの埋め込みモデル(GEM)は、アーキテクチャの多様性とデータキュレーションの強化を通じて制限に対処するために開発された。
いくつかの大規模で精巧にキュレートされたコーパスで訓練されたモデルのファミリー。
最初のバイリンガル・ギリシャ語・英語の埋め込みモデルは、言語間法的な応用に適合した。
論文 参考訳(メタデータ) (2025-10-22T20:06:48Z) - Modeling Open-World Cognition as On-Demand Synthesis of Probabilistic Models [93.1043186636177]
我々は、人々が分散表現と象徴表現の組み合わせを使って、新しい状況に合わせた見知らぬ精神モデルを構築するという仮説を探求する。
モデル合成アーキテクチャ」という概念の計算的実装を提案する。
我々は、新しい推論データセットに基づく人間の判断のモデルとして、MSAを評価した。
論文 参考訳(メタデータ) (2025-07-16T18:01:03Z) - Unveiling the Potential of Diffusion Large Language Model in Controllable Generation [36.05635830551406]
最先端の自己回帰型大規模言語モデル(LLM)でさえ、構造化された出力を生成するために必要な場合、信頼性が低い。
現在の拡散型大規模言語モデル(dLLM)に触発されて、アーキテクチャ上の違いが次世代の制御可能生成をアンロックする鍵であることに気付いた。
本稿では,dLLMが安定して構造化された出力を生成できる新しいフレームワークであるSelf-Adaptive Scaffoldingを提案する。
論文 参考訳(メタデータ) (2025-07-06T18:41:34Z) - Multi-Scale Probabilistic Generation Theory: A Unified Information-Theoretic Framework for Hierarchical Structure in Large Language Models [1.0117553823134735]
大規模言語モデル(LLM)は目覚ましい能力を示すが、力学レベルでは理解されていない。
本稿では,マルチスケール確率生成理論(MSPGT)を紹介する。
MSPGTは、標準言語モデリングの目的が暗黙的にマルチスケール情報圧縮を最適化することを示唆している。
論文 参考訳(メタデータ) (2025-05-23T16:55:35Z) - L3GO: Language Agents with Chain-of-3D-Thoughts for Generating
Unconventional Objects [53.4874127399702]
本稿では,3Dメッシュ生成を推論可能な3Dメッシュ生成手法であるL3GO(チェーン・オブ・3D思想)を用いた言語エージェントを提案する。
我々は,新しいベンチマークである Unconventionally Feasible Objects (UFO) と,Blender上に構築されたSimpleBlenv を開発した。
提案手法は,ShapeNet上での3Dメッシュ生成のための標準GPT-4および他の言語エージェントを上回る。
論文 参考訳(メタデータ) (2024-02-14T09:51:05Z) - Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。
我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。
トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文 参考訳(メタデータ) (2022-10-16T04:35:58Z) - Coalescing Global and Local Information for Procedural Text
Understanding [70.10291759879887]
完全な手続き的理解ソリューションは、入力のローカル・グローバル・ビューとアウトプットのグローバル・ビューの3つの中核的な側面を組み合わせるべきである。
本稿では,エンティティと時間表現を構築する新しいモデルであるCoalescing Global and Local InformationCGを提案する。
一般的な手続き的テキスト理解データセットの実験は、我々のモデルが最先端の結果を得ることを示す。
論文 参考訳(メタデータ) (2022-08-26T19:16:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。