論文の概要: Greedy Is Enough: Sparse Action Discovery in Agentic LLMs
- arxiv url: http://arxiv.org/abs/2601.08280v1
- Date: Tue, 13 Jan 2026 07:15:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.093945
- Title: Greedy Is Enough: Sparse Action Discovery in Agentic LLMs
- Title(参考訳): エージェントのLSMで軽快な行動発見
- Authors: Angshul Majumdar,
- Abstract要約: 経験的証拠は、少数のアクションだけが、所定のデプロイメントのパフォーマンスに有意義に影響を及ぼすことを示唆している。
この観察によって動機づけられた行動が構造化された空間性仮定によって制御される文脈線形報酬モデルについて検討する。
本研究は,スパース行動発見を大アクション意思決定の基礎となる基本原理とみなす。
- 参考スコア(独自算出の注目度): 11.62669179647184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern agentic systems operate in environments with extremely large action spaces, such as tool-augmented language models with thousands of available APIs or retrieval operations. Despite this scale, empirical evidence suggests that only a small subset of actions meaningfully influences performance in a given deployment. Motivated by this observation, we study a contextual linear reward model in which action relevance is governed by a structured sparsity assumption: only a small number of actions have nonzero effects across latent states. We formulate action discovery as a block-sparse recovery problem and analyze a greedy algorithm inspired by Orthogonal Matching Pursuit. Under standard assumptions on incoherence, signal strength, and action coverage, we prove that the greedy procedure exactly recovers the relevant action set with high probability, using a number of samples that scales polynomially in the sparsity level and latent dimension, and only logarithmically in the total number of actions. We further provide estimation error guarantees for refitted parameters and show that the resulting decision rule is near-optimal for new latent states. Complementing these results, we establish information-theoretic lower bounds demonstrating that sparsity and sufficient coverage are necessary for tractability. Together, our results identify sparse action discovery as a fundamental principle underlying large-action decision-making and provide a theoretical foundation for action pruning in agentic systems.
- Abstract(参考訳): 現代のエージェントシステムは、ツール拡張言語モデルや数千の利用可能なAPI、検索操作など、非常に大きなアクション空間を持つ環境で運用されている。
このスケールにもかかわらず、実験的な証拠は、アクションの小さなサブセットだけが所定のデプロイメントのパフォーマンスに有意義に影響を及ぼすことを示唆している。
この観察によって動機づけられた行動関連性が構造化された空間性仮定によって支配される文脈線形報酬モデルについて検討した。
ブロックスパース回復問題として行動発見を定式化し,Orthogonal Matching Pursuitにインスパイアされた欲求アルゴリズムを解析する。
不整合性、信号強度、行動カバレッジに関する標準的な仮定の下では、グリーディ法は、疎度レベルと潜時次元で多項式的にスケールするサンプルを多数使用し、アクションの総数でのみ対数的にのみ、高い確率で関連するアクションを正確に回復することを証明する。
さらに、再適合パラメータに対する推定誤差の保証を行い、結果の決定ルールが新しい潜伏状態に対してほぼ最適であることを示す。
これらの結果の補完として,トラクタビリティには空間性と十分なカバレッジが必要であることを示す情報理論の下限を確立する。
その結果, スパース行動発見は, 大アクション意思決定の基礎となる基本原理であり, エージェント・システムにおけるアクション・プルーニングの理論的基礎を提供する。
関連論文リスト
- GLANCE: Global Actions in a Nutshell for Counterfactual Explainability [10.25011737760687]
2つのアルゴリズムからなる多目的かつ適応的なフレームワークであるGLANCEを紹介する。
C-GLANCEは、特徴空間と反現実的アクションの空間の両方を考慮するクラスタリングアプローチを採用している。
T-GLANCEは柔軟性を高めるための追加機能を提供する。
論文 参考訳(メタデータ) (2024-05-29T09:24:25Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Efficient Transfer Learning via Causal Bounds [8.981637739384674]
我々は、因果側情報がどのようにオンライン学習を加速するかを分析し、データ削減の実験を行う。
我々の分析は、因果側情報がどのようにオンライン学習を加速させるか、およびデータ削減の実験を正確に特徴付ける。
論文 参考訳(メタデータ) (2023-08-07T13:24:50Z) - Leveraging Factored Action Spaces for Off-Policy Evaluation [0.0]
オフ・ポリティィ・アセスメント(OPE: Off-policy Evaluation)は、反現実的な行動列に従う利点を推定することを目的としている。
既存のOPE推定器は、大きく分解された作用空間に関わる問題において、高いバイアスと高いばらつきを示すことが多い。
本稿では,因子的作用空間に基づく「分解」重要サンプリング(IS)推定器の新たなファミリーを提案する。
論文 参考訳(メタデータ) (2023-07-13T18:34:14Z) - Algorithmic Recourse with Missing Values [11.401006371457436]
本稿では,欠落した値の存在下でも機能するアルゴリズム・リコース(AR)の新たな枠組みを提案する。
ARは、分類器によって与えられる望ましくない予測結果を変更するためのリコースアクションを提供することを目的としている。
実験の結果, 基準値に比較して, 欠落した値の存在下での本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-04-28T03:22:48Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Loss Bounds for Approximate Influence-Based Abstraction [81.13024471616417]
影響に基づく抽象化は、システムの残りの部分が与える「影響」とともに、局所的なサブプロブレムをモデル化することでレバレッジを得ることを目的としている。
本稿では,理論的観点から,そのような手法の性能について考察する。
交叉エントロピーで訓練されたニューラルネットワークは、近似的な影響表現を学習するのに適していることを示す。
論文 参考訳(メタデータ) (2020-11-03T15:33:10Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。