論文の概要: MultiHedge: Adaptive Coordination via Retrieval-Augmented Control
- arxiv url: http://arxiv.org/abs/2604.24905v1
- Date: Mon, 27 Apr 2026 18:38:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.552524
- Title: MultiHedge: Adaptive Coordination via Retrieval-Augmented Control
- Title(参考訳): MultiHedge: Retrieval-Augmented Controlによる適応コーディネーション
- Authors: Feliks Bańka, Jarosław A. Chudziak,
- Abstract要約: MultiHedge(マルチヘッジ)は、LLMが検索した歴史的前例に基づいて構造化されたアロケーション決定を生成するハイブリッドアーキテクチャである。
本稿では,モジュール型決定システムにおいて,メモリとアーキテクチャ設計がロバスト性の中心的な役割を担っていることを示す,制御された計算研究に貢献する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decision-making under changing conditions remains a fundamental challenge in many real-world systems. Existing approaches often fail to generalize across shifting regimes and exhibit unstable behavior under uncertainty. This raises the research question: can retrieval-augmented LLM coordination improve the robustness of modular decision pipelines? We propose MultiHedge, a hybrid architecture where an LLM produces structured allocation decisions conditioned on retrieved historical precedents, and execution is grounded in canonical option strategies. In a controlled evaluation using U.S. equities, we compare MultiHedge to rule-based and learning-based baselines. The key result is that memory-augmented retrieval confers greater robustness and stability than increasing model scale alone. Our paper contributes a controlled computational study showing that memory and architectural design play a central role in robustness in modular decision systems.
- Abstract(参考訳): 変化する条件の下での意思決定は、多くの現実世界システムにおいて依然として根本的な課題である。
既存のアプローチはしばしば、シフトする体制をまたいだ一般化に失敗し、不確実性の下で不安定な振る舞いを示す。
検索強化LLM協調はモジュラー決定パイプラインの堅牢性を改善することができるか?
提案するハイブリッドアーキテクチャであるMultiHedgeは、LLMが検索した過去の事例に基づいて構造化されたアロケーション決定を生成し、その実行は標準オプション戦略に基づいて行われる。
米国株を用いた規制評価では、MultiHedgeとルールベースおよび学習ベースラインを比較した。
その結果、メモリ拡張検索はモデルスケールのみを増大させるよりもロバスト性や安定性が高いことがわかった。
本稿では,モジュール型決定システムにおいて,メモリとアーキテクチャ設計がロバスト性の中心的な役割を担っていることを示す,制御された計算研究に貢献する。
関連論文リスト
- One Refiner to Unlock Them All: Inference-Time Reasoning Elicitation via Reinforcement Query Refinement [37.27419953581617]
大きな言語モデル(LLM)は、しばしば潜伏する推論機能を利用することができない。
本稿では推論時間アライメントタスクとして推論誘発を扱うモジュラーフレームワークReQueRを提案する。
論文 参考訳(メタデータ) (2026-04-28T09:52:21Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Decision-Centric Design for LLM Systems [3.400316337034188]
我々は、意思決定関連信号を行動にマッピングする方針から分離する、意思決定中心のフレームワークを提案する。
この分離は、信号の推定、決定ポリシー、実行に対する失敗の帰結をサポートする。
3つの実験で、このフレームワークは無駄なアクションを減らし、タスクの成功を改善し、解釈可能な障害モードを明らかにします。
論文 参考訳(メタデータ) (2026-04-01T02:57:23Z) - LibContinual: A Comprehensive Library towards Realistic Continual Learning [62.34449396069085]
継続的学習(CL)における根本的な課題は破滅的な忘れ込みであり、新しいタスクに適応することで、以前のタスクのパフォーマンスが低下する。
現実的なCLの基礎となるプラットフォームとして設計された,包括的で再現可能なライブラリであるLibContinualを提案する。
論文 参考訳(メタデータ) (2025-12-26T13:59:13Z) - TrajBooster: Boosting Humanoid Whole-Body Manipulation via Trajectory-Centric Learning [79.59753528758361]
両足のVLAを促進するために、豊富な車輪付きヒューマノイドデータを活用するクロス・エボディメント・フレームワークであるTrajBoosterを提案する。
私たちのキーとなる考え方は、形態素に依存しないインターフェースとして、エンドエフェクタ・トラジェクトリを使用することです。
以上の結果から,TrajBoosterは既存の車輪付きヒューマノイドデータにより,二足歩行ヒューマノイドVLAの性能を効率的に向上させることができることがわかった。
論文 参考訳(メタデータ) (2025-09-15T12:25:39Z) - CCSK:Cognitive Convection of Self-Knowledge Based Retrieval Augmentation for Large Language Models [3.3524923578228094]
CCSKは、シームズネットワークモジュールとレスポンス品質モデルを介して、動的な共同決定プロセスを実装している。
実世界のデータセットの実験により、CCSKは情報検索におけるモデルの有効性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-04-07T13:43:53Z) - Efficiently Training Deep-Learning Parametric Policies using Lagrangian Duality [55.06411438416805]
制約付きマルコフ決定プロセス(CMDP)は、多くの高度な応用において重要である。
本稿では,パラメトリックアクターポリシーを効率的に訓練するための2段階深度決定規則(TS-DDR)を提案する。
現状の手法と比較して, 解の質を高め, 数桁の計算時間を削減できることが示されている。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。
これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文 参考訳(メタデータ) (2021-03-01T22:55:48Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。