論文の概要: From Next Token Prediction to (STRIPS) World Models -- Preliminary Results
- arxiv url: http://arxiv.org/abs/2509.13389v2
- Date: Thu, 25 Sep 2025 12:09:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 14:16:56.072196
- Title: From Next Token Prediction to (STRIPS) World Models -- Preliminary Results
- Title(参考訳): 次世代剣予測から(STRIPS)世界モデルへ -予備結果-
- Authors: Carlos Núñez-Molina, Vicenç Gómez, Hector Geffner,
- Abstract要約: 本研究では,行動トレースのみから命題STRIPS世界モデルを学習する問題について考察する。
適切なトランスフォーマーアーキテクチャは命題的STRIPS世界モデルを忠実に表現できることを示す。
- 参考スコア(独自算出の注目度): 11.686727822884864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of learning propositional STRIPS world models from action traces alone, using a deep learning architecture (transformers) and gradient descent. The task is cast as a supervised next token prediction problem where the tokens are the actions, and an action $a$ may follow an action sequence if the hidden effects of the previous actions do not make an action precondition of $a$ false. We show that a suitable transformer architecture can faithfully represent propositional STRIPS world models, and that the models can be learned from sets of random valid (positive) and invalid (negative) action sequences alone. A number of experiments are reported.
- Abstract(参考訳): 本稿では,深層学習アーキテクチャ(トランスフォーマー)と勾配勾配勾配を用いて,行動トレースのみから命題STRIPS世界モデルを学習する問題を考察する。
このタスクは、トークンがアクションである監視された次のトークン予測問題としてキャストされ、前のアクションの隠れた効果が$a$ falseのアクション前条件を作らない場合、アクションシーケンスに$a$が従うことができる。
適切なトランスフォーマーアーキテクチャは命題的STRIPS世界モデルを忠実に表現することができ、ランダムな有効(正)かつ無効(負)なアクションシーケンスの集合からモデルを学ぶことができることを示す。
いくつかの実験が報告されている。
関連論文リスト
- Learning Lifted Action Models From Traces of Incomplete Actions and States [6.30853901017231]
ランダムな状態-動作トレースからスライディングタイルパズルの昇降STRIPSモデルを学習する問題を考察する。
我々はSTRIPS+と呼ばれるSTRIPSの変種を紹介し、そこでは特定のSTRIPSアクション引数を事前条件で暗黙的に残すことができる。
提案した学習アルゴリズムはSynTHと呼ばれ、各アクションに対して事前条件式やクエリ'の階層化されたシーケンス(接続)を構築する。
論文 参考訳(メタデータ) (2025-08-29T09:27:53Z) - Towards Model Resistant to Transferable Adversarial Examples via Trigger Activation [95.3977252782181]
知覚不能な摂動によって特徴づけられる敵対的な例は、彼らの予測を誤解させることで、ディープニューラルネットワークに重大な脅威をもたらす。
本稿では,移動可能な敵例(TAE)に対して,より効率的かつ効果的に堅牢性を高めることを目的とした,新たなトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-04-20T09:07:10Z) - Language Models Can Predict Their Own Behavior [28.80639362933004]
入力トークンの内部表現だけでは、次のトークンだけでなく、出力シーケンス全体に対する最終的な振る舞いを正確に予測できることがよく示されます。
この能力を活用して、内部状態のプローブを学習して、早期警告(および終了)システムを作成します。
具体的には、探査機がLMの振る舞いを確実に見積もることができれば、システムはトークンを全く生成せず、代わりに推定された振る舞いを返す。
論文 参考訳(メタデータ) (2025-02-18T23:13:16Z) - ACT-JEPA: Novel Joint-Embedding Predictive Architecture for Efficient Policy Representation Learning [90.41852663775086]
ACT-JEPAは模倣学習と自己教師型学習を統合する新しいアーキテクチャである。
我々はアクションシーケンスと抽象的な観察シーケンスを予測するポリシーを訓練する。
実験の結果,ACT-JEPAは時間環境の動的学習によって表現の質を向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-24T16:41:41Z) - Semformer: Transformer Language Models with Semantic Planning [18.750863564495006]
次世代の予測は、現在のニューラルネットワークモデルの主要なコンポーネントである。
本稿では,応答のセマンティックプランニングを明示的にモデル化したトランスフォーマー言語モデルのトレーニング手法であるSemformerを紹介する。
論文 参考訳(メタデータ) (2024-09-17T12:54:34Z) - Safe Learning of PDDL Domains with Conditional Effects -- Extended Version [27.05167679870857]
実験されたほとんどの領域において、条件付きSAMはテストセット問題のほとんどを完璧に解くのに利用できることを示す。
この結果から,Conditional-SAMで学習したアクションモデルを用いて,テストセット問題を完全に解決できることが示唆された。
論文 参考訳(メタデータ) (2024-03-22T14:49:49Z) - Learning the Effects of Physical Actions in a Multi-modal Environment [17.757831697284498]
大規模言語モデル(LLM)は、物理的コモンセンス情報を不十分に扱う。
本稿では,現実的な感覚入力のみから行動の結果を予測するマルチモーダルタスクを提案する。
マルチモーダルモデルでは、視覚情報で拡張した場合に、物理的なコモンセンスをキャプチャできることを示す。
論文 参考訳(メタデータ) (2023-01-27T16:49:52Z) - Towards Out-of-Distribution Sequential Event Prediction: A Causal
Treatment [72.50906475214457]
シーケンシャルなイベント予測の目標は、一連の歴史的なイベントに基づいて次のイベントを見積もることである。
実際には、次のイベント予測モデルは、一度に収集されたシーケンシャルなデータで訓練される。
文脈固有の表現を学習するための階層的な分岐構造を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T07:54:13Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。