論文の概要: Aligning Large Language Models with Procedural Rules: An Autoregressive State-Tracking Prompting for In-Game Trading
- arxiv url: http://arxiv.org/abs/2510.25014v1
- Date: Tue, 28 Oct 2025 22:26:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.811655
- Title: Aligning Large Language Models with Procedural Rules: An Autoregressive State-Tracking Prompting for In-Game Trading
- Title(参考訳): 手続きルール付き大規模言語モデルのアライメント:ゲーム内トレーディングのための自動回帰状態追跡プロンプト
- Authors: Minkyung Kim, Junsik Kim, Woongcheol Yang, Sangdon Park, Sohee Bae,
- Abstract要約: LLM(Large Language Models)は、動的なゲーム間相互作用を可能にするが、ルールが支配するトレーディングシステムにおいて、必須の手続きフローに従わない。
本研究は, LLMの創造的柔軟性とゲーム内取引の手続き的要求の核心的緊張を解消する。
戦略的に組織されたプロンプトを中心とした方法論であるASTP(Autoregressive State-Tracking Prompting)が導入されている。
- 参考スコア(独自算出の注目度): 6.629895877490243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) enable dynamic game interactions but fail to follow essential procedural flows in rule-governed trading systems, eroding player trust. This work resolves the core tension between the creative flexibility of LLMs and the procedural demands of in-game trading (browse-offer-review-confirm). To this end, Autoregressive State-Tracking Prompting (ASTP) is introduced, a methodology centered on a strategically orchestrated prompt that compels an LLM to make its state-tracking process explicit and verifiable. Instead of relying on implicit contextual understanding, ASTP tasks the LLM with identifying and reporting a predefined state label from the previous turn. To ensure transactional integrity, this is complemented by a state-specific placeholder post-processing method for accurate price calculations. Evaluation across 300 trading dialogues demonstrates >99% state compliance and 99.3% calculation precision. Notably, ASTP with placeholder post-processing on smaller models (Gemini-2.5-Flash) matches larger models' (Gemini-2.5-Pro) performance while reducing response time from 21.2s to 2.4s, establishing a practical foundation that satisfies both real-time requirements and resource constraints of commercial games.
- Abstract(参考訳): LLM(Large Language Models)は、ダイナミックなゲームインタラクションを可能にするが、ルールが支配するトレーディングシステムにおいて、必須の手続きフローに従うことができず、プレイヤーの信頼を損なう。
本研究は, LLMの創造的柔軟性とゲーム内取引の手続き的要求(ブラウズ・オフ-リビュー-確認)の核心的緊張を解消する。
この目的のために、LSMを補完し、その状態追跡プロセスを明確かつ検証可能にする戦略的に編成されたプロンプトを中心にした、自動回帰状態追跡プロンプト(ASTP)が導入されている。
暗黙的な文脈理解に頼る代わりに、ASTPはLCMに前回から定義された状態ラベルを特定して報告する。
トランザクションの整合性を確保するため、正確な価格計算のための状態固有のプレースホルダー後処理法でこれを補完する。
300の取引対話に対する評価は、99%の国家コンプライアンスと99.3%の計算精度を示している。
特に、小さなモデル(Gemini-2.5-Flash)でプレースホルダーを後処理したASTPは、より大きなモデルの(Gemini-2.5-Pro)パフォーマンスと一致し、レスポンス時間を21.2sから2.4sに短縮し、商用ゲームのリアルタイム要件とリソース制約の両方を満たす実用的な基盤を確立する。
関連論文リスト
- DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - Large Reasoning Embedding Models: Towards Next-Generation Dense Retrieval Paradigm [16.78399933831573]
本稿では、推論過程を表現学習に統合するLarge Reasoning Embedding Model(LREM)を提案する。
難解なクエリに対して、LREMはまず、元のクエリの深い理解を達成するために推論を行い、その後、検索のための推論拡張クエリ埋め込みを生成する。
この推論プロセスは、元のクエリとターゲットアイテム間のセマンティックギャップを効果的にブリッジし、検索精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-10-16T05:37:39Z) - State-Inference-Based Prompting for Natural Language Trading with Game NPCs [9.19109810969398]
大規模言語モデルは動的なゲームインタラクションを可能にするが、ルールが支配するトレーディングシステムと競合する。
State-Inference-Based Prompting (SIBP) は、自律的な対話状態推論とコンテキスト固有のルール順守による信頼性の高い取引を可能にする。
論文 参考訳(メタデータ) (2025-07-09T18:24:47Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。
交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。
目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T16:51:54Z) - Diffusion Augmented Retrieval: A Training-Free Approach to Interactive Text-to-Image Retrieval [7.439049772394586]
Diffusion Augmented Retrieval (DAR)は、複数の中間表現を生成するフレームワークである。
DARの結果は微調整されたI-TIRモデルと同等だが、チューニングオーバーヘッドは発生しない。
論文 参考訳(メタデータ) (2025-01-26T03:29:18Z) - Apparate: Rethinking Early Exits to Tame Latency-Throughput Tensions in ML Serving [10.926767319124547]
本稿では,機械学習モデルにおける早期退避を自動的に適用し,管理するシステムであるApparateを紹介する。
EEがもたらす時間的なオーバーヘッドと正確性に対処するために、Apparateは出口を再利用して継続的なフィードバックを提供する。
CVおよびNLP分類ワークロードの中央値応答レイテンシを40.5--91.5%と10.0--24.2%に下げる。
論文 参考訳(メタデータ) (2023-12-08T21:49:09Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - PANDA: Prompt Transfer Meets Knowledge Distillation for Efficient Model Adaptation [89.0074567748505]
即時転送可能性(i)を正確に予測する新しい指標と,新しいPoTアプローチ(PANDA)を提案する。
提案手法は,各タスクおよびモデルサイズの平均スコアの2.3%(最大24.1%)でバニラPoTアプローチを一貫して上回り,その3。
論文 参考訳(メタデータ) (2022-08-22T09:14:14Z) - AdaPrompt: Adaptive Model Training for Prompt-based NLP [77.12071707955889]
PLMの継続事前学習のための外部データを適応的に検索するAdaPromptを提案する。
5つのNLPベンチマークの実験結果から、AdaPromptは数ショット設定で標準PLMよりも改善可能であることが示された。
ゼロショット設定では、標準のプロンプトベースの手法を26.35%の相対誤差削減で上回ります。
論文 参考訳(メタデータ) (2022-02-10T04:04:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。