論文の概要: Does Reasoning Help LLM Agents Play Dungeons and Dragons? A Prompt Engineering Experiment
- arxiv url: http://arxiv.org/abs/2510.18112v1
- Date: Mon, 20 Oct 2025 21:23:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.629639
- Title: Does Reasoning Help LLM Agents Play Dungeons and Dragons? A Prompt Engineering Experiment
- Title(参考訳): LLMエージェントがダンジョンとドラゴンをプレイするのに役立つか?
- Authors: Patricia Delafuente, Arya Honraopatil, Lara J. Martin,
- Abstract要約: 本稿では,Large Language Models (LLMs) の適用と,Dungeons & Dragons (DnD) プレーヤの動作を予測し,それらをAvrae Discord ボットコマンドとしてフォーマットする理由について検討する。
FIREBALLデータセットを用いて、コマンド生成のための推論モデルDeepSeek-R1-Distill-LLaMA-8Bと命令モデルLLaMA-3.1-8B-Instructを評価した。
本研究は, モデルに特定の指示を提供することの重要性, プロンプトの単文変更であっても, モデルの出力に大きく影響しうること, 推論に比較して, モデルが十分であることを示す。
- 参考スコア(独自算出の注目度): 2.3320050024519596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores the application of Large Language Models (LLMs) and reasoning to predict Dungeons & Dragons (DnD) player actions and format them as Avrae Discord bot commands. Using the FIREBALL dataset, we evaluated a reasoning model, DeepSeek-R1-Distill-LLaMA-8B, and an instruct model, LLaMA-3.1-8B-Instruct, for command generation. Our findings highlight the importance of providing specific instructions to models, that even single sentence changes in prompts can greatly affect the output of models, and that instruct models are sufficient for this task compared to reasoning models.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) の適用と,Dungeons & Dragons (DnD) プレーヤの動作を予測し,それらをAvrae Discord ボットコマンドとしてフォーマットする理由について検討する。
FIREBALLデータセットを用いて、コマンド生成のための推論モデルDeepSeek-R1-Distill-LLaMA-8Bと命令モデルLLaMA-3.1-8B-Instructを評価した。
本研究は, モデルに特定の指示を提供することの重要性, プロンプトの単文変更であっても, モデルの出力に大きく影響しうること, 推論モデルと比較して, モデルに十分であることを示す。
関連論文リスト
- ASIDE: Architectural Separation of Instructions and Data in Language Models [87.16417239344285]
ASIDEは言語モデルに対して、埋め込みのレベルで命令とデータを明確に分離することを可能にする。
本稿では,ASIDE を用いた命令調整 LLM がモデルユーティリティを損なうことなく,命令データ分離の高度化につながることを実験的に示す。
モデル表現の分析を通じて,本手法の基盤となるメカニズムについて考察する。
論文 参考訳(メタデータ) (2025-03-13T17:17:17Z) - SuperCorrect: Advancing Small LLM Reasoning with Thought Template Distillation and Self-Correction [89.56181323849512]
SuperCorrectは、大きな教師モデルを使用して、より小さな学生モデルの推論と反映の両方を監督し、修正する新しい2段階のフレームワークである。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:25:52Z) - Non-instructional Fine-tuning: Enabling Instruction-Following Capabilities in Pre-trained Language Models without Instruction-Following Data [51.34222224728979]
本稿では,OpenWebText からのランダムテキストの前半を命令として,GPT-3.5-turbo あるいは GPT-4-turbo を用いて応答としてテキストを完成させる手法を提案する。
データが"非教育的"であるにも関わらず、このデータに基づいて微調整された事前学習されたLLMが、命令追従能力を得る可能性があることがわかった。
論文 参考訳(メタデータ) (2024-08-27T01:21:53Z) - FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions [71.5977045423177]
本稿では,情報検索システムにおける命令の利用について検討する。
厳密なインストラクション評価ベンチマークを含むデータセットFollowIRを紹介した。
我々は、IRモデルが複雑な命令に従うことを学習することは可能であることを示す。
論文 参考訳(メタデータ) (2024-03-22T14:42:29Z) - Baichuan2-Sum: Instruction Finetune Baichuan2-7B Model for Dialogue Summarization [12.45299260235282]
本稿では,役割指向のダイアグルージュ要約のための命令微調整モデルBaichuan2-Sumを提案する。
異なる役割に対して異なる命令を設定することで、モデルは対話相互作用から学び、期待される要約を出力することができる。
実験により、提案モデルが2つの公開対話要約データセット上で、最先端の新たな結果を達成することを示す。
論文 参考訳(メタデータ) (2024-01-27T20:20:39Z) - Jatmo: Prompt Injection Defense by Task-Specific Finetuning [8.213552455778743]
Jatmoは、プロンプトインジェクション攻撃に耐性のあるタスク固有のモデルを生成する方法である。
教師がチューニングしたモデルを使用してタスク固有のデータセットを生成し、ベースモデルを微調整する。
実験では、ジャトモモデルが通常のLCMと同等の品質の出力を提供する一方で、インジェクションの進行に耐性があることが示されている。
論文 参考訳(メタデータ) (2023-12-29T16:37:53Z) - Aligning Large Language Models through Synthetic Feedback [43.84431341195111]
本研究では,ヒトのアノテーションに依存しない合成フィードバックを用いたアライメント学習フレームワークを提案する。
人間の評価では,我々のモデルはアルパカとドリー-v2にそれぞれ55.0%,58.5%が好まれる。
論文 参考訳(メタデータ) (2023-05-23T06:41:16Z) - LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale
Instructions [28.937552799649808]
命令を微調整した大規模言語モデル(LLM)は、優れた生成能力を示す。
我々は既存の命令と新しく生成された命令の両方に基づいて258万の命令を大規模に開発する。
我々は、エンコーダデコーダとデコーダのみのファミリーの両方のモデルを含む、LaMini-LMと呼ばれる様々なモデルの群を微調整する。
論文 参考訳(メタデータ) (2023-04-27T17:58:49Z) - Training language models to follow instructions with human feedback [29.590666996229206]
本稿では,人間のフィードバックを微調整することで,言語モデルとユーザ意図との整合性を示す。
インストラクションGPTモデルは、有害な出力生成の真理性の改善と削減を示す。
論文 参考訳(メタデータ) (2022-03-04T07:04:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。