論文の概要: Verification of the Implicit World Model in a Generative Model via Adversarial Sequences
- arxiv url: http://arxiv.org/abs/2602.05903v1
- Date: Thu, 05 Feb 2026 17:18:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.081691
- Title: Verification of the Implicit World Model in a Generative Model via Adversarial Sequences
- Title(参考訳): 逆数列による生成モデルにおけるインシシトワールドモデルの検証
- Authors: András Balogh, Márk Jelasity,
- Abstract要約: 本稿では,シーケンスモデルの音質を検証するための逆列生成法を提案する。
我々の敵は、シーケンスモデルを強制的に無効な次の移動予測を生成するために有効なシーケンスを生成する。
ランダムかつ高品質なチェスゲームでモデルをトレーニングし、いくつかのトレーニングレシピを使用します。
- 参考スコア(独自算出の注目度): 9.081141443436536
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generative sequence models are typically trained on sample sequences from natural or formal languages. It is a crucial question whether -- or to what extent -- sample-based training is able to capture the true structure of these languages, often referred to as the ``world model''. Theoretical results indicate that we can hope for soundness at best, that is, generating valid sequences, but not necessarily all of them. However, it is still important to have practical tools that are able to verify whether a given sequence model is sound. In this study, we focus on chess, as it is a domain that provides enough complexity while having a simple rule-based world model. We propose adversarial sequence generation for verifying the soundness of the sequence model. Our adversaries generate valid sequences so as to force the sequence model to generate an invalid next move prediction. Apart from the falsification of soundness, this method is also suitable for a more fine-grained analysis of the failure modes and the effects of different choices during training. To demonstrate this, we propose a number of methods for adversarial sequence generation and evaluate the approach on a large set of chess models. We train models on random as well as high-quality chess games, using several training recipes. We find that none of the models are sound, but some training techniques and dataset choices are able to improve soundness remarkably. We also investigate the potential application of board state probes in both our training and attack methods. Our findings indicate that the extracted board states have no causal role in next token prediction in most of the models.
- Abstract(参考訳): 生成シーケンスモデルは典型的には、自然言語または形式言語からのサンプルシーケンスに基づいて訓練される。
サンプルベースのトレーニングがこれらの言語の真の構造(しばしば 'world model'' と呼ばれる)を捉えることができるかどうかは、決定的な問題である。
理論的結果は、音の質が良く、すなわち有効なシーケンスを生成することができるが、それら全てを必ずしも起こさないことを示唆している。
しかし、与えられたシーケンスモデルが健全かどうかを検証できる実用的なツールを持つことは依然として重要である。
本研究では,単純なルールベースの世界モデルを持ちながら,十分な複雑さを提供する領域として,チェスに焦点を当てる。
本稿では,シーケンスモデルの音質を検証するための逆列生成法を提案する。
我々の敵は、シーケンスモデルを強制的に無効な次の移動予測を生成するために有効なシーケンスを生成する。
音質のファルシフィケーションは別として, 本手法は, 故障モードのよりきめ細かな解析や, 訓練中に異なる選択が与える影響にも適している。
そこで本研究では, 逆数列生成のための多くの手法を提案し, 大規模なチェスモデルに対するアプローチを評価する。
ランダムかつ高品質なチェスゲームでモデルをトレーニングし、いくつかのトレーニングレシピを使用します。
いずれのモデルもサウンドではないことが分かっていますが、トレーニング手法やデータセットの選択によっては、音質を著しく改善することができます。
また,我々の訓練法と攻撃法の両方における板状状態プローブの応用の可能性についても検討した。
その結果,抽出した基板状態は,ほとんどのモデルにおいて次のトークン予測に因果的役割を果たさないことが明らかとなった。
関連論文リスト
- Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory and Test-Time Compute Scaling [60.63703438729223]
異なるアーキテクチャとトレーニング手法がモデル多段階推論能力にどのように影響するかを示す。
我々は,逐次計算においてモデル深度の増加が重要な役割を担っていることを確認した。
論文 参考訳(メタデータ) (2025-08-22T18:57:08Z) - Gumbel Counterfactual Generation From Language Models [64.55296662926919]
対実的推論が介入と概念的に異なることを示す。
そこで本研究では,真の文字列反事実を生成するためのフレームワークを提案する。
提案手法は,従来の介入手法が望ましくない副作用を有意に生み出しているのに対し,本手法は有意義な反事実を生じさせることを示す。
論文 参考訳(メタデータ) (2024-11-11T17:57:30Z) - Learning to Jump: Thinning and Thickening Latent Counts for Generative
Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。
ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文 参考訳(メタデータ) (2023-05-28T05:38:28Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Robust Attack Graph Generation [11.419463747286716]
入力修正に頑健なオートマトンモデルを学習する手法を提案する。
繰り返し、シーケンスを学習されたモデルにアライメントし、シーケンスをアライメントされたバージョンに修正し、モデルを再学習する。
論文 参考訳(メタデータ) (2022-06-15T19:26:39Z) - Thought Flow Nets: From Single Predictions to Trains of Model Thought [39.619001911390804]
人間が複雑な問題を解くと、すぐに決定が下されることはめったにない。
その代わり、彼らは直感的な決定から始まり、間違いを見つけ、矛盾を解決し、異なる仮説の間を飛び交う。
論文 参考訳(メタデータ) (2021-07-26T13:56:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。