論文の概要: Narrative-Guided Reinforcement Learning: A Platform for Studying Language Model Influence on Decision Making
- arxiv url: http://arxiv.org/abs/2509.08785v1
- Date: Wed, 10 Sep 2025 17:14:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.527877
- Title: Narrative-Guided Reinforcement Learning: A Platform for Studying Language Model Influence on Decision Making
- Title(参考訳): ナラティブ・ガイドによる強化学習:言語モデルが意思決定に与える影響を学習するためのプラットフォーム
- Authors: Anup Tuladhar, Araz Minhas, Adam Kirton, Eli Kinney-Lang,
- Abstract要約: 我々は、物語要素がAIの意思決定をどのように形成するかを探求する予備的なプラットフォームを示す。
このシステムは、過去の経験に基づく行動を提案する強化学習ポリシーと、これらの提案を異なる物語の枠組みを通して処理して意思決定を導く言語モデルから構成される。
- 参考スコア(独自算出の注目度): 0.20999222360659608
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present a preliminary experimental platform that explores how narrative elements might shape AI decision-making by combining reinforcement learning (RL) with language model reasoning. While AI systems can now both make decisions and engage in narrative reasoning, these capabilities have mostly been studied separately. Our platform attempts to bridge this gap using a dual-system architecture to examine how narrative frameworks could influence reward-based learning. The system comprises a reinforcement learning policy that suggests actions based on past experience, and a language model that processes these suggestions through different narrative frameworks to guide decisions. This setup enables initial experimentation with narrative elements while maintaining consistent environment and reward structures. We implement this architecture in a configurable gridworld environment, where agents receive both policy suggestions and information about their surroundings. The platform's modular design facilitates controlled testing of environmental complexity, narrative parameters, and the interaction between reinforcement learning and narrative-based decisions. Our logging system captures basic decision metrics, from RL policy values to language model reasoning to action selection patterns. While preliminary, this implementation provides a foundation for studying how different narrative frameworks might affect reward-based decisions and exploring potential interactions between optimization-based learning and symbolic reasoning in AI systems.
- Abstract(参考訳): 本稿では,強化学習(RL)と言語モデル推論を組み合わせることで,物語要素がAI意思決定をどのように形成するかを探索する予備実験プラットフォームを提案する。
AIシステムは意思決定と物語推論の両方を行うことができるが、これらの能力はほとんど別々に研究されている。
我々のプラットフォームは、物語フレームワークが報酬ベースの学習にどのように影響するかを調べるために、デュアルシステムアーキテクチャを使ってこのギャップを埋めようとしている。
このシステムは、過去の経験に基づく行動を提案する強化学習ポリシーと、これらの提案を異なる物語の枠組みを通して処理して意思決定を導く言語モデルから構成される。
このセットアップは、一貫した環境と報酬構造を維持しながら、物語要素の初期実験を可能にする。
我々はこのアーキテクチャを、エージェントがポリシーの提案と環境に関する情報を受信する、構成可能なグリッドワールド環境に実装する。
このプラットフォームのモジュラー設計は、環境の複雑さ、物語パラメータ、強化学習と物語に基づく決定の間の相互作用の制御テストを容易にする。
我々のロギングシステムは,RLポリシー値から言語モデル推論,行動選択パターンに至るまで,基本的な意思決定指標を抽出する。
この実装は、予備的な一方で、異なる物語フレームワークが報酬ベースの決定にどのように影響するかを研究するための基盤を提供し、AIシステムにおける最適化ベースの学習と象徴的推論の間の潜在的な相互作用を探索する。
関連論文リスト
- Fuzzy, Symbolic, and Contextual: Enhancing LLM Instruction via Cognitive Scaffolding [3.553493344868413]
本研究では,大規模言語モデル(LLM)の対話における認知行動に,アーキテクチャ的帰納バイアスがどのような影響を及ぼすかを検討する。
本稿では,ソクラテス学習における適応的構造的推論を促進するために,短期記憶スキーマと組み合わせたシンボリック・スキャフォールディング機構を提案する。
論文 参考訳(メタデータ) (2025-08-28T20:46:13Z) - Matching Game Preferences Through Dialogical Large Language Models: A Perspective [0.6827423171182154]
本稿では,Large Language Models (LLM) と GRAPHYP のネットワークシステムをどのように組み合わせるかを検討することによって,「対話型知能」の将来の可能性について検討する。
我々は,AIを透明かつトレーサビリティにするための概念的フレームワークを提案する。
この視点の目標は、回答を提供するだけでなく、その回答がどのように到達したかをユーザーに示すAIシステムを構想することである。
論文 参考訳(メタデータ) (2025-07-26T16:40:17Z) - Feature-Based vs. GAN-Based Learning from Demonstrations: When and Why [50.191655141020505]
この調査は、デモから学ぶ機能ベースのアプローチとGANベースのアプローチの比較分析を提供する。
特徴に基づく手法とGANに基づく手法の2分法はますます曖昧になっていると我々は主張する。
論文 参考訳(メタデータ) (2025-07-08T11:45:51Z) - Playpen: An Environment for Exploring Learning Through Conversational Interaction [81.67330926729015]
本研究は,対話ゲームが学習のフィードバック信号の源として機能するかどうかを考察する。
本稿では,対話ゲームによるオフラインおよびオンライン学習環境であるPlaypenを紹介する。
SFTによる模倣学習は、目に見えないインスタンスのパフォーマンスを向上させるが、他のスキルに悪影響を及ぼす。
論文 参考訳(メタデータ) (2025-04-11T14:49:33Z) - Training a Generally Curious Agent [86.84089201249104]
Paprikaは、言語モデルが一般的な意思決定機能を開発することを可能にする微調整のアプローチである。
Paprika氏は、より勾配の更新をすることなく、コンテキスト内の環境フィードバックに基づいて、新しいタスクで彼らの振る舞いを探索し、適応するようにモデルに教えている。
結果は、シーケンシャルな意思決定問題を自律的に解決できるAIシステムへの有望な道のりを示唆している。
論文 参考訳(メタデータ) (2025-02-24T18:56:58Z) - Feature Interactions Reveal Linguistic Structure in Language Models [2.0178765779788495]
本研究では,ポストホック解釈における特徴帰属手法の文脈における特徴的相互作用について検討した。
私たちは、正規言語分類タスクで完璧にモデルをトレーニングする灰色のボックスの方法論を開発します。
特定の構成下では、いくつかの手法が実際にモデルが獲得した文法規則を明らかにすることができることを示す。
論文 参考訳(メタデータ) (2023-06-21T11:24:41Z) - Frugal Prompting for Dialog Models [17.048111072193933]
本研究では,大規模言語モデル(LLM)を用いた対話システム構築のための異なるアプローチについて検討する。
即時チューニングの一環として、インストラクション、例題、現在のクエリ、追加のコンテキストを提供する様々な方法を試行する。
この研究は、最適な使用情報密度を持つダイアログ履歴の表現も分析する。
論文 参考訳(メタデータ) (2023-05-24T09:06:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。