論文の概要: ByteSized32Refactored: Towards an Extensible Interactive Text Games Corpus for LLM World Modeling and Evaluation
- arxiv url: http://arxiv.org/abs/2509.23979v1
- Date: Sun, 28 Sep 2025 17:07:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.567019
- Title: ByteSized32Refactored: Towards an Extensible Interactive Text Games Corpus for LLM World Modeling and Evaluation
- Title(参考訳): ByteSized32 Refactored:LLMワールドモデリングと評価のための拡張可能なインタラクティブテキストゲームコーパスを目指して
- Authors: Haonan Wang, Junfeng Sun, Xingdi Yuan, Ruoyao Wang, Ziang Xiao,
- Abstract要約: 本稿では,ByteSized32 コーパスのモジュール化と実装であるByteSized32Refactoredを紹介した。
各テキストゲームのコード構造を最適化し,GameBasic.pyファウンデーションライブラリを作成する。
集中型設計により、ByteSized32Refactoredはより効率的に拡張でき、新しいシナリオと仕様のテキストゲームを含めることができます。
- 参考スコア(独自算出の注目度): 31.971819259650683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Simulating interactive world models remains a core challenge in Large Language Models(LLMs). In this work, we introduce the ByteSized32Refactored, a refactored, modular, and extensible implementation of the original ByteSized32 corpus to explore the task of text game generation. We further optimize the code structure of each text game and create the GameBasic.py foundation library, which centralizes common logic across all 32 games by abstracting 7 base classes (GameObject, etc.) into reusable modules, thereby reducing from 20k to 10k total lines of Python code compared to the original Bytesized32. Our refactored implementation enables extendability - with our centralized design, ByteSized32Refactored can be more efficiently extended to include text games of new scenarios and specifications by reusing the shared logic and functionalities. Extensive experiments with GPT-4o demonstrate a mix of performance - with Bytesized32Refactored, the generated text games for unseen scenarios showcase quality improvements on two of the four evaluation dimensions while decreases on the other two, indicating that the hierarchical structure of the refactored code presents new challenges for LLMs. Overall, we highlight that our extensible code structure, centered on the foundation library and the modular optimization, not only facilitates LLM adaptation to environment specifications but also establishes a scalable environment that supports future extensions.
- Abstract(参考訳): 対話型世界モデルのシミュレーションは、Large Language Models(LLMs)の中核的な課題である。
本研究では,ByteSized32 コーパスのリファクタリング,モジュール化,拡張可能な実装であるByteSized32Refactoredを導入し,テキストゲーム生成の課題を探求する。
このライブラリは7つのベースクラス(GameObjectなど)を再利用可能なモジュールに抽象化することで、オリジナルのBytesized32と比較して20kから10kまでのPythonコードの総行数を削減します。
ByteSized32Refactoredは、共有ロジックと機能の再利用によって、新しいシナリオと仕様のテキストゲームを含むように、より効率的に拡張できます。
GPT-4oによる大規模な実験では、Bytesized32Refactoredと組み合わせて、未確認シナリオ用の生成されたテキストゲームは、4つの評価次元のうち2つの品質改善を示す一方で、他の2つは低下し、リファクタリングされたコードの階層構造がLLMに新たな課題をもたらすことを示す。
全体として、私たちの拡張可能なコード構造は、基礎ライブラリとモジュラー最適化を中心としており、環境仕様へのLLM適応を促進するだけでなく、将来の拡張をサポートするスケーラブルな環境も確立しています。
関連論文リスト
- StructEval: Benchmarking LLMs' Capabilities to Generate Structural Outputs [39.108050455592036]
StructEvalは構造化フォーマットの生成におけるLarge Language Modelsの機能を評価するためのベンチマークである。
我々のベンチマークは18の形式と44のタイプのタスクを含み、形式順守と構造的正当性のための新しい指標である。
o1-miniのような最先端のモデルでさえ平均スコアは75.58点に過ぎなかった。
論文 参考訳(メタデータ) (2025-05-26T15:40:42Z) - ComplexVCoder: An LLM-Driven Framework for Systematic Generation of Complex Verilog Code [11.498491832975299]
本稿では,複雑なVerilogコードの生成品質と効率を向上させるオープンソースフレームワークであるComplexVCoderを提案する。
具体的には、中間表現を利用した2段階生成機構を導入し、より構造化された自然言語記述から複雑なVerilog設計への遷移を可能にする。
さらに、ルールベースのアライメント手法とドメイン固有検索拡張生成(RAG)を導入し、合成コードの正確性をさらに向上する。
論文 参考訳(メタデータ) (2025-04-29T11:22:06Z) - ASMA-Tune: Unlocking LLMs' Assembly Code Comprehension via Structural-Semantic Instruction Tuning [33.53059396922164]
アセンブリコード分析と理解は、リバースエンジニアリングのようなアプリケーションにおいて重要な役割を果たす。
従来のマスク付き言語モデリングアプローチは、自然言語の相互作用に明示的に焦点を合わせていない。
本稿では、エンドツーエンドな構造意味的命令チューニングフレームワークであるアセンブリ・チューニングについて述べる。
論文 参考訳(メタデータ) (2025-03-14T17:36:08Z) - Distributed Approach to Haskell Based Applications Refactoring with LLMs Based Multi-Agent Systems [3.972203967261693]
大言語モデル (LLM) はHaskellを自動化するマルチエージェントシステムである。
システムは、コンテキスト分析、検証、テストなどのタスクを実行する特殊なエージェントで構成される。
リファクタリングの改善には、サイクロマティックな複雑性、実行時間、メモリ割り当てといったメトリクスを使用する。
論文 参考訳(メタデータ) (2025-02-11T20:04:15Z) - ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning [72.90823351726374]
我々は,LLM間の双方向の注目を可能にする,柔軟でプラグアンドプレイな実装であるLULME(Unified framework for Large Language Model Embedding)を紹介した。
また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。
フレームワークの柔軟性と有効性を示すために、異なるバックボーンアーキテクチャを持つULLMEから事前訓練された3つのモデルをリリースする。
論文 参考訳(メタデータ) (2024-08-06T18:53:54Z) - ReGAL: Refactoring Programs to Discover Generalizable Abstractions [59.05769810380928]
Generalizable Abstraction Learning (ReGAL)は、再利用可能な関数のライブラリをコード化して学習する手法である。
ReGALによって発見された共有関数ライブラリは、プログラムが様々な領域で容易に予測できることを示している。
CodeLlama-13Bでは、ReGALはLOGOで11.5%、日付理解で26.1%、TextCraftで8.1%という絶対精度が向上し、3つのドメインのうち2つでGPT-3.5を上回った。
論文 参考訳(メタデータ) (2024-01-29T18:45:30Z) - Towards A Unified View of Sparse Feed-Forward Network in Pretraining
Large Language Model [58.9100867327305]
大規模かつスパースなフィードフォワード層(S-FFN)は、大きな言語モデルをテキスト処理するためにTransformersモデルのサイズをスケールアップするのに有効であることが証明されている。
我々は,S-FFNの2つの主要な設計選択,すなわち,メモリブロックのサイズとメモリブロックの選択方法について分析した。
言語モデルの事前学習において,より単純な選択方法である textbftextttAvg-K が得られた。
論文 参考訳(メタデータ) (2023-05-23T12:28:37Z) - I3CL:Intra- and Inter-Instance Collaborative Learning for
Arbitrary-shaped Scene Text Detection [93.62705504233931]
事例間協調学習(I3CL)という新しい手法を提案する。
具体的には、最初の問題に対処するため、複数の受容場を持つ効率的な畳み込みモジュールを設計する。
2つ目の問題に対処するため、異なるテキストインスタンス間の依存関係を利用するインスタンスベースのトランスフォーマーモジュールを考案しました。
論文 参考訳(メタデータ) (2021-08-03T07:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。