論文の概要: DecisionLLM: Large Language Models for Long Sequence Decision Exploration
- arxiv url: http://arxiv.org/abs/2601.10148v1
- Date: Thu, 15 Jan 2026 07:42:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.03904
- Title: DecisionLLM: Large Language Models for Long Sequence Decision Exploration
- Title(参考訳): DecisionLLM:Long Sequence Decision Explorationのための大規模言語モデル
- Authors: Xiaowei Lv, Zhilin Zhang, Yijun Li, Yusen Huo, Siyuan Ju, Xuyan Li, Chunxiang Hong, Tianyu Wang, Yongcai Wang, Peng Sun, Chuan Yu, Jian Xu, Bo Zheng,
- Abstract要約: 大規模言語モデル(LLM)は複雑な推論や計画タスクにおいて顕著な成功を収めた。
本研究では,LLMのオフライン意思決定タスクへの適用について検討する。
トラジェクトリデータを自然言語のタスク記述と整合させることで、我々のモデルは将来的な決定を自動回帰的に予測できる。
- 参考スコア(独自算出の注目度): 26.033533195580933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-sequence decision-making, which is usually addressed through reinforcement learning (RL), is a critical component for optimizing strategic operations in dynamic environments, such as real-time bidding in computational advertising. The Decision Transformer (DT) introduced a powerful paradigm by framing RL as an autoregressive sequence modeling problem. Concurrently, Large Language Models (LLMs) have demonstrated remarkable success in complex reasoning and planning tasks. This inspires us whether LLMs, which share the same Transformer foundation, but operate at a much larger scale, can unlock new levels of performance in long-horizon sequential decision-making problem. This work investigates the application of LLMs to offline decision making tasks. A fundamental challenge in this domain is the LLMs' inherent inability to interpret continuous values, as they lack a native understanding of numerical magnitude and order when values are represented as text strings. To address this, we propose treating trajectories as a distinct modality. By learning to align trajectory data with natural language task descriptions, our model can autoregressively predict future decisions within a cohesive framework we term DecisionLLM. We establish a set of scaling laws governing this paradigm, demonstrating that performance hinges on three factors: model scale, data volume, and data quality. In offline experimental benchmarks and bidding scenarios, DecisionLLM achieves strong performance. Specifically, DecisionLLM-3B outperforms the traditional Decision Transformer (DT) by 69.4 on Maze2D umaze-v1 and by 0.085 on AuctionNet. It extends the AIGB paradigm and points to promising directions for future exploration in online bidding.
- Abstract(参考訳): 通常、強化学習(RL)を通して対処されるロングシーケンス意思決定は、計算広告におけるリアルタイム入札のような動的環境における戦略的操作を最適化するための重要な要素である。
決定変換器(DT)は自己回帰配列モデリング問題としてRLをフレーミングすることで強力なパラダイムを導入した。
同時に、LLM(Large Language Models)は複雑な推論や計画タスクにおいて顕著な成功を収めている。
これにより、同じTransformer基盤を共有しながら、はるかに大規模に運用されているLLMが、長期にわたるシーケンシャルな意思決定問題において、新たなレベルのパフォーマンスを解放できるかどうかがわかる。
本研究では,LLMのオフライン意思決定タスクへの適用について検討する。
この領域における根本的な課題は、LLMが連続的な値を解釈できないことである。
そこで本研究では,軌跡を一意のモダリティとして扱うことを提案する。
トラジェクトリデータを自然言語のタスク記述と整合させることで、決定LLM(DecisionLLM)と呼ばれる凝集型フレームワーク内での将来の決定を自動回帰的に予測することができる。
このパラダイムを規定する一連のスケーリング法則を確立し、パフォーマンスのヒンジがモデルスケール、データボリューム、データ品質の3つの要因に依存していることを示します。
オフラインの実験ベンチマークと入札シナリオでは、DecisionLLMは高いパフォーマンスを達成する。
具体的には、DecisionLLM-3Bは、Maze2D umaze-v1で69.4、AuctionNetで0.085、従来のDecision Transformer(DT)より優れている。
AIGBパラダイムを拡張し、将来のオンライン入札の道筋を示す。
関連論文リスト
- Post-Training LLMs as Better Decision-Making Agents: A Regret-Minimization Approach [37.78174504569736]
反復回帰最小化ファインタニング(Iterative Regret-Minimization Fine-Tuning)は、低回帰決定軌跡をベースモデルに蒸留するポストトレーニング手順である。
このモデル生成推論への依存は、厳密な出力エンジニアリングを回避し、より柔軟で自然言語の訓練信号を提供する。
RMFT は LLM の DM 性能を多種多様なモデルで改善する。
論文 参考訳(メタデータ) (2025-11-06T14:21:22Z) - Large Multimodal Models-Empowered Task-Oriented Autonomous Communications: Design Methodology and Implementation Challenges [31.57528074626831]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は前例のない突破口となった。
本稿では,LLM/LMMを用いたタスク指向の自律通信について述べる。
提案したLLM/LMM支援自律システムは,従来型および差別型深層学習(DL)モデルに基づく手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-10-23T15:08:58Z) - Feedback-Induced Performance Decline in LLM-Based Decision-Making [6.5990946334144756]
大規模言語モデル(LLM)は、自然言語の問題記述からコンテキストを抽出することができる。
本稿では,マルコフ決定過程(MDP)におけるこれらのモデルの挙動について考察する。
論文 参考訳(メタデータ) (2025-07-20T10:38:56Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - Making Large Language Models Better Planners with Reasoning-Decision Alignment [70.5381163219608]
マルチモーダリティ強化LLMに基づくエンドツーエンド意思決定モデルを提案する。
ペア化されたCoTと計画結果との推論・決定アライメントの制約を提案する。
提案する大規模言語プランナをRDA-Driverとして推論・決定アライメントする。
論文 参考訳(メタデータ) (2024-08-25T16:43:47Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。