論文の概要: Automatic Bug Detection in LLM-Powered Text-Based Games Using LLMs
- arxiv url: http://arxiv.org/abs/2406.04482v1
- Date: Thu, 6 Jun 2024 20:11:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 18:07:23.109869
- Title: Automatic Bug Detection in LLM-Powered Text-Based Games Using LLMs
- Title(参考訳): LLMを用いたテキストベースゲームにおけるバグの自動検出
- Authors: Claire Jin, Sudha Rao, Xiangyu Peng, Portia Botchway, Jessica Quaye, Chris Brockett, Bill Dolan,
- Abstract要約: 大規模言語モデル(LLM)はインタラクティブなゲームデザインに革命をもたらし、動的プロットラインとプレイヤーとNPC間の相互作用を可能にしている。
LLMは幻覚、忘れやすさ、プロンプトの誤解釈などの欠陥を示し、論理的な矛盾や意図された設計からの予期せぬ逸脱を引き起こす可能性がある。
ゲームログからこのようなバグを自動的に識別するシステム LLM ベースの手法を提案する。
- 参考スコア(独自算出の注目度): 17.84810486479385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advancements in large language models (LLMs) are revolutionizing interactive game design, enabling dynamic plotlines and interactions between players and non-player characters (NPCs). However, LLMs may exhibit flaws such as hallucinations, forgetfulness, or misinterpretations of prompts, causing logical inconsistencies and unexpected deviations from intended designs. Automated techniques for detecting such game bugs are still lacking. To address this, we propose a systematic LLM-based method for automatically identifying such bugs from player game logs, eliminating the need for collecting additional data such as post-play surveys. Applied to a text-based game DejaBoom!, our approach effectively identifies bugs inherent in LLM-powered interactive games, surpassing unstructured LLM-powered bug-catching methods and filling the gap in automated detection of logical and design flaws.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩はインタラクティブなゲームデザインに革命をもたらし、動的プロットラインとプレイヤーと非プレイヤーキャラクター(NPC)間の相互作用を可能にしている。
しかし、LLMは幻覚、忘れやすさ、プロンプトの誤解釈などの欠陥を示し、論理的な矛盾と意図された設計からの予期せぬ逸脱を引き起こす可能性がある。
このようなゲームバグを検出するための自動技術はまだ不足している。
そこで本稿では,プレイヤーのゲームログからこのようなバグを自動的に識別するシステム LLM ベースの手法を提案する。
テキストベースのゲーム『DejaBoom!』に適用し、LLMによるインタラクティブゲームに固有のバグを効果的に識別し、構造化されていないLLMによるバグキャッチ手法を克服し、論理的および設計的欠陥の自動検出のギャップを埋める。
関連論文リスト
- Revealing the Challenge of Detecting Character Knowledge Errors in LLM Role-Playing [14.950721395944388]
本稿では,KKE と UKE の誤り検出能力を評価するための探索データセットを提案する。
その結果、最新のLSMでさえこれらの2種類のエラーを効果的に検出するのに苦労していることが示唆された。
本稿では,エージェントによる推論手法であるSelf-RecollectionとSelf-Doubtを提案する。
論文 参考訳(メタデータ) (2024-09-18T06:21:44Z) - Logic-Enhanced Language Model Agents for Trustworthy Social Simulations [3.5083201638203154]
本研究では,人間のインタラクションモデルとしてのゲーム理論シナリオにおける意思決定に焦点を当てた。
本稿では,社会シミュレーションの信頼性を高める新しいアプローチである論理強化言語モデルエージェント(LELMA)フレームワークを紹介する。
論文 参考訳(メタデータ) (2024-08-28T18:25:35Z) - Grammar-based Game Description Generation using Large Language Models [12.329521804287259]
ゲームデザイン空間を効果的に構成するゲーム記述の文法を推論プロセスに導入する。
ゲーム記述の生成において,本手法が有効であることを示す。
論文 参考訳(メタデータ) (2024-07-24T16:36:02Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - DALD: Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。
我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。
DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文 参考訳(メタデータ) (2024-06-07T19:38:05Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - Clembench: Using Game Play to Evaluate Chat-Optimized Language Models as
Conversational Agents [20.202525145391093]
近年の研究では,「言語理解エージェント」の体系的評価手法が提案されている。
制約のあるゲームライクな設定に公開することで、大規模言語モデルを有意義に評価できるだろうか?
概念実証として,現在のチャット最適化LDMがゲームプレイの指示に従うことができる範囲において,5つのインタラクション設定について検討する。
論文 参考訳(メタデータ) (2023-05-22T19:56:10Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。