論文の概要: On the Emergence and Test-Time Use of Structural Information in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.17869v1
- Date: Sun, 25 Jan 2026 15:02:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.498403
- Title: On the Emergence and Test-Time Use of Structural Information in Large Language Models
- Title(参考訳): 大規模言語モデルにおける構造情報の創発性と試験時間利用について
- Authors: Michelle Chao Chen, Moritz Miller, Bernhard Schölkopf, Siyuan Guo,
- Abstract要約: 本研究では,言語モデルが抽象構造を学習し,テスト時に学習した構造情報を利用する方法について検討する。
学習構造情報の出現は複雑な推論タスクと関連があることを実証的に示す。
- 参考スコア(独自算出の注目度): 52.28603345019514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning structural information from observational data is central to producing new knowledge outside the training corpus. This holds for mechanistic understanding in scientific discovery as well as flexible test-time compositional generation. We thus study how language models learn abstract structures and utilize the learnt structural information at test-time. To ensure a controlled setup, we design a natural language dataset based on linguistic structural transformations. We empirically show that the emergence of learning structural information correlates with complex reasoning tasks, and that the ability to perform test-time compositional generation remains limited.
- Abstract(参考訳): 観測データから構造情報を学習することは、トレーニングコーパス外の新たな知識を生み出す上で重要である。
これは、科学的発見の機械的理解と柔軟なテスト時間構成生成を支えている。
そこで我々は,言語モデルが抽象構造を学習し,テスト時に学習した構造情報を利用する方法を検討した。
制御された設定を保証するため、言語構造変換に基づく自然言語データセットを設計する。
学習構造情報の出現は複雑な推論作業と相関し,テスト時間構成生成能力は依然として限られていることを実証的に示す。
関連論文リスト
- Towards Improving Interpretability of Language Model Generation through a Structured Knowledge Discovery Approach [33.17711262799183]
我々は,知識を付加したテキスト生成タスクに対して,タスクに依存しない構造化された知識ハンターを開発する。
我々のモデルは高い解釈可能性を実現し、ユーザーはモデル出力生成プロセスを理解することができる。
我々は,RotoWireFGデータセットとKdConvデータセットを用いた外部知識強化対話生成の両方において,我々のモデルの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2025-11-28T16:43:46Z) - Finding Structure in Language Models [3.882018118763685]
この論文は、言語モデルが人間のものと似た文法構造を深く理解しているかどうかに関するものである。
我々は,大規模言語モデルの複雑な性質の理解を深める新しい解釈可能性技術を開発する。
論文 参考訳(メタデータ) (2024-11-25T14:37:24Z) - Generative Hierarchical Materials Search [91.93125016916463]
結晶構造の制御可能な生成のための生成階層材料探索(GenMS)を提案する。
GenMSは(1)高レベル自然言語を入力とし、結晶に関する中間テキスト情報を生成する言語モデルからなる。
GenMSはまた、生成された結晶構造から特性(たとえば生成エネルギー)を予測するためにグラフニューラルネットワークを使用する。
論文 参考訳(メタデータ) (2024-09-10T17:51:28Z) - Language Evolution with Deep Learning [49.879239655532324]
計算モデリングは言語の出現の研究において重要な役割を担っている。
構造化言語の出現を誘発する可能性のある条件と学習プロセスをシミュレートすることを目的としている。
この章では、最近機械学習の分野に革命をもたらした別の種類の計算モデル、ディープ・ラーニング・モデルについて論じる。
論文 参考訳(メタデータ) (2024-03-18T16:52:54Z) - Punctuation Restoration Improves Structure Understanding Without Supervision [5.925894224649895]
学習目的としての句読点復元が構造関連タスクの性能を向上させることを示す。
その結果,句読点復元は構造理解を向上する効果的な学習目標であることが示唆された。
論文 参考訳(メタデータ) (2024-02-13T11:22:52Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部の動作や推論メカニズムを理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがCFG定義階層を正確に学習し、推論し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - Chain-of-Knowledge: Grounding Large Language Models via Dynamic
Knowledge Adapting over Heterogeneous Sources [87.26486246513063]
Chain-of-knowledge (CoK)は、大規模な言語モデルを拡張するフレームワークである。
CoKは推論準備、動的知識適応、解答統合の3段階からなる。
論文 参考訳(メタデータ) (2023-05-22T17:34:23Z) - Unifying Structure Reasoning and Language Model Pre-training for Complex
Reasoning [26.811507121199323]
本稿では,明示的な構造推論と言語事前学習を組み合わせ,PLMと構造推論のスキルを融合した統合学習フレームワークを提案する。
まず、コンテクスト内のいくつかの基本構造を識別し、構造化されたクエリを構築し、クエリに沿ってステップバイステップの推論を行い、回答エンティティを識別する。
4つのデータセットに対する実験結果から,提案モデルが多様構造を含む複雑な推論タスクにおいて,大幅な改善を達成できることが示されている。
論文 参考訳(メタデータ) (2023-01-21T08:18:11Z) - DeepStruct: Pretraining of Language Models for Structure Prediction [64.84144849119554]
テキストから構造を生成するために,タスクに依存しないコーパスの集合上で言語モデルを事前訓練する。
我々の構造事前学習は、モデルが構造タスクについて持っている学習知識のゼロショット転送を可能にする。
10Bパラメータ言語モデルがほとんどのタスクに非自明に転送し、28のデータセットのうち21の最先端のパフォーマンスを得ることを示す。
論文 参考訳(メタデータ) (2022-05-21T00:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。