論文の概要: GameTalk: Training LLMs for Strategic Conversation
- arxiv url: http://arxiv.org/abs/2601.16276v1
- Date: Thu, 22 Jan 2026 19:18:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.379824
- Title: GameTalk: Training LLMs for Strategic Conversation
- Title(参考訳): GameTalk:戦略会話のためのLLMのトレーニング
- Authors: Victor Conchello Vendrell, Max Ruiz Luyten, Mihaela van der Schaar,
- Abstract要約: マルチターンインタラクションによる戦略的意思決定のために,LLMをトレーニングするフレームワークであるtextbfGameTalkを紹介した。
シングルターンの目的や静的アクション予測に焦点を当てた以前の作業とは異なり、私たちはLLMをトレーニングして、全会話にわたってグローバルな目的を最適化します。
本手法は, 推論, コーディネート, 対戦型モデリングの異なる側面を強調するために設計された, ますます複雑なゲーム群に対して評価する。
- 参考スコア(独自算出の注目度): 51.29670609281524
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Strategic decision-making in multi-agent settings is a key challenge for large language models (LLMs), particularly when coordination and negotiation must unfold over extended conversations. While recent work has explored the use of LLMs in isolated decision tasks, little attention has been given to optimizing long-term objectives through dialogue. We introduce \textbf{GameTalk}, a framework for training LLMs to make strategic decisions via multi-turn interactions. Unlike prior work that focuses on single-turn objectives or static action prediction, we train LLMs to optimize a global objective across full conversations. We achieve this by adapting fine-tuning methods like GRPO, DPO, and STaR to incorporate reward signals that depend on the entire interaction. We evaluate this approach on a suite of increasingly complex games, designed to stress different aspects of reasoning, coordination, and opponent modeling. Our results show that GameTalk significantly outperforms untrained models, especially under reward shaping, with DPO consistently yielding the strongest gains. These findings position conversational fine-tuning as a promising path for LLMs to reason, negotiate, and act in interactive environments.
- Abstract(参考訳): マルチエージェント設定における戦略的意思決定は、大規模言語モデル(LLM)にとって重要な課題である。
近年,LLMを単独の意思決定タスクに用いながら,対話による長期的目標の最適化にはほとんど注意が払われていない。
マルチターンインタラクションによる戦略的意思決定のために, LLM をトレーニングするフレームワークである \textbf{GameTalk} を紹介した。
シングルターンの目的や静的アクション予測に焦点を当てた以前の作業とは異なり、私たちはLLMをトレーニングして、全会話にわたってグローバルな目的を最適化します。
我々は、GRPO、DPO、STaRのような微調整手法を応用して、インタラクション全体に依存する報酬信号を組み込むことにより、これを実現する。
本手法は, 推論, コーディネート, 対戦型モデリングの異なる側面を強調するために設計された, ますます複雑なゲーム群に対して評価する。
以上の結果から,ゲームTalkはトレーニングされていないモデル,特に報酬形成において,DPOが常に最強のゲインを生んでいることが示唆された。
これらの知見は,対話型環境におけるLLMの推論,交渉,行動への道のりとして,対話型微調整を位置づけている。
関連論文リスト
- LinguaGame: A Linguistically Grounded Game-Theoretic Paradigm for Multi-Agent Dialogue Generation [17.584631586928815]
本稿では,多エージェント対話生成のための言語論的ゲーム理論パラダイムを提案する。
我々のフレームワークは、最小限のタスク固有結合を伴う言語情報推論に依存している。
我々は,模擬法廷手続と議論における枠組みを評価し,コミュニケーション効率の大幅な向上を示す人間専門家の評価を行った。
論文 参考訳(メタデータ) (2026-01-08T02:30:43Z) - DialogXpert: Driving Intelligent and Emotion-Aware Conversations through Online Value-Based Reinforcement Learning with LLM Priors [19.83349341267686]
大言語モデル(LLM)エージェントは、反応対話において優れるが、プロアクティブでゴール駆動的な相互作用に苦しむ。
提案するダイアログXpertは,各ターンごとに,小型で高品質な候補アクションセットを提案する。
ユーザの感情を追跡することで、DialogXpertは、真の共感的なつながりを育みながら、タスクを前進させる決定をそれぞれ調整する。
論文 参考訳(メタデータ) (2025-05-23T12:12:40Z) - Are LLMs Effective Negotiators? Systematic Evaluation of the Multifaceted Capabilities of LLMs in Negotiation Dialogues [4.738985706520995]
本研究の目的は,多様な対話シナリオにまたがるLLMの多面的特徴を体系的に解析することである。
本分析では,GPT-4の課題を特定しながら,多くのタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-21T06:11:03Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。
具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。
PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2023-11-01T03:20:16Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。