論文の概要: DynaAct: Large Language Model Reasoning with Dynamic Action Spaces
- arxiv url: http://arxiv.org/abs/2511.08043v1
- Date: Wed, 12 Nov 2025 01:36:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.611402
- Title: DynaAct: Large Language Model Reasoning with Dynamic Action Spaces
- Title(参考訳): DynaAct:動的アクション空間を用いた大規模言語モデル推論
- Authors: Xueliang Zhao, Wei Wu, Jian Guan, Qintong Li, Lingpeng Kong,
- Abstract要約: コンパクトなアクション空間を自動構築する新しいフレームワークtextscDynaActを提案する。
当社のアプローチは,大幅な遅延を発生させることなく,効率的な推論を維持しながら,全体的なパフォーマンスを著しく向上させる。
- 参考スコア(独自算出の注目度): 58.298135359318024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In modern sequential decision-making systems, the construction of an optimal candidate action space is critical to efficient inference. However, existing approaches either rely on manually defined action spaces that lack scalability or utilize unstructured spaces that render exhaustive search computationally prohibitive. In this paper, we propose a novel framework named \textsc{DynaAct} for automatically constructing a compact action space to enhance sequential reasoning in complex problem-solving scenarios. Our method first estimates a proxy for the complete action space by extracting general sketches observed in a corpus covering diverse complex reasoning problems using large language models. We then formulate a submodular function that jointly evaluates candidate actions based on their utility to the current state and their diversity, and employ a greedy algorithm to select an optimal candidate set. Extensive experiments on six diverse standard benchmarks demonstrate that our approach significantly improves overall performance, while maintaining efficient inference without introducing substantial latency. The implementation is available at https://github.com/zhaoxlpku/DynaAct.
- Abstract(参考訳): 現代のシーケンシャルな意思決定システムでは、最適候補の行動空間の構築は効率的な推論に不可欠である。
しかし、既存のアプローチは、拡張性に欠ける手動で定義されたアクション空間に依存するか、網羅的な探索を禁ずる非構造化空間を利用するかのいずれかである。
本稿では,複雑な問題解決シナリオにおける逐次的推論を強化するために,コンパクトな行動空間を自動構築するフレームワーク「textsc{DynaAct}」を提案する。
提案手法はまず,大規模言語モデルを用いた多種多様な推論問題をカバーするコーパスで観察される一般的なスケッチを抽出することにより,完全な行動空間のプロキシを推定する。
次に,その実用性と多様性に基づく候補動作を協調的に評価する部分モジュラー関数を定式化し,最適候補集合を選択するために欲求アルゴリズムを用いる。
6つの多種多様な標準ベンチマークに関する大規模な実験は、我々のアプローチが性能を著しく改善し、十分なレイテンシを伴わずに効率的な推論を維持していることを示している。
実装はhttps://github.com/zhaoxlpku/DynaAct.comで公開されている。
関連論文リスト
- IG-Pruning: Input-Guided Block Pruning for Large Language Models [34.984986323797976]
提案するIG-Pruningは,動的に層マスクを推論時に選択する,入出力対応のブロックワイドプルーニング手法である。
実験結果から,本手法は最先端の静的プルーニング法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-11-04T03:05:54Z) - Search-Based Robot Motion Planning With Distance-Based Adaptive Motion Primitives [1.8874301050354767]
本研究では,サンプリングベースと探索ベースを組み合わせたロボットマニピュレータの動作計画アルゴリズムを提案する。
提案手法の中核となる貢献は、適応運動プリミティブとして自由構成空間(C空間)のバーの利用である。
以上の結果から, bur-based アプローチは複雑なシナリオにおいて, 固定原始的計画よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-07-01T21:33:33Z) - ORPP: Self-Optimizing Role-playing Prompts to Enhance Language Model Capabilities [64.24517317344959]
複雑なタスクにおいて、大きな言語モデルから優れたパフォーマンスを引き出すためには、高品質なプロンプトが不可欠である。
本稿では,ロールプレイングプロンプトの最適化と生成によりモデル性能を向上させるフレームワークORPPを提案する。
ORPPは一致しただけでなく、ほとんどの場合、性能の点で既存の主流のプロンプト最適化手法を上回ります。
論文 参考訳(メタデータ) (2025-06-03T05:51:35Z) - Stop Relying on No-Choice and Do not Repeat the Moves: Optimal,
Efficient and Practical Algorithms for Assortment Optimization [38.57171985309975]
本研究では,emphPlackett Luce (PL) を用いたコンソーシアム選択問題に対する効率的なアルゴリズムを開発した。
提案手法は,既存の手法の限界を無視し,実用的かつ確実に最適である。
論文 参考訳(メタデータ) (2024-02-29T07:17:04Z) - Large Language Models to Enhance Bayesian Optimization [57.474613739645605]
本稿では,大規模言語モデル(LLM)の能力をベイズ最適化に組み込む新しいアプローチであるLLAMBOを提案する。
高いレベルでは、自然言語のBO問題を枠組み化し、LLMが歴史的評価に照らした有望な解を反復的に提案し、評価することを可能にする。
以上の結果から,LLAMBOはゼロショットウォームスタートに有効であり,サロゲートモデリングや候補サンプリングの促進,特に観察が不十分な場合の探索の初期段階において有効であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T11:44:06Z) - Bayesian Optimization over High-Dimensional Combinatorial Spaces via
Dictionary-based Embeddings [36.60636056219264]
我々は,科学,工学,機械学習の分野において,高次元空間上でのブラックボックス関数の最適化の問題を考える。
鍵となるアイデアは、入力空間から多くの離散構造を選択し、それらを用いて高次元構造に対する順序埋め込みを定義することである。
本稿では,二分空間の辞書を構築するための二分ウェーブレットに基づく原理的アプローチを開発し,分類空間に一般化するランダム化構成法を提案する。
論文 参考訳(メタデータ) (2023-03-03T08:31:42Z) - Contextual Bandits with Large Action Spaces: Made Practical [48.28690486203131]
本稿では,連続的かつ線形に構造化された行動空間を持つコンテキスト的帯域に対する,最初の効率的汎用アルゴリズムを提案する。
提案アルゴリズムは,教師付き学習のための計算オラクル,および (ii) 動作空間を最適化し, 動作空間のサイズによらず, サンプルの複雑性, 実行時間, メモリを実現する。
論文 参考訳(メタデータ) (2022-07-12T21:01:48Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Goal Kernel Planning: Linearly-Solvable Non-Markovian Policies for Logical Tasks with Goal-Conditioned Options [54.40780660868349]
我々はLinearly-Solvable Goal Kernel Dynamic Programming (LS-GKDP)と呼ばれる合成フレームワークを導入する。
LS-GKDPは、Linearly-Solvable Markov Decision Process (LMDP)形式とOptions Framework of Reinforcement Learningを組み合わせたものである。
本稿では,目標カーネルを持つLMDPが,タスク接地によって定義された低次元部分空間におけるメタポリティシの効率的な最適化を実現する方法を示す。
論文 参考訳(メタデータ) (2020-07-06T05:13:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。