論文の概要: Chain-of-Context Learning: Dynamic Constraint Understanding for Multi-Task VRPs
- arxiv url: http://arxiv.org/abs/2603.01667v1
- Date: Mon, 02 Mar 2026 09:57:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.800171
- Title: Chain-of-Context Learning: Dynamic Constraint Understanding for Multi-Task VRPs
- Title(参考訳): Chain-of-Context Learning:マルチタスクVRPのための動的制約理解
- Authors: Shuangchun Gui, Suyu Liu, Xuehe Wang, Zhiguang Cao,
- Abstract要約: マルチタスク車両ルーティング問題(VRP)は、様々な制約を満たすとともに、ルーティングコストを最小限にすることを目的としている。
既存のソルバは通常、タスク間で一般化可能なパターンを学ぶために統合強化学習(RL)フレームワークを採用する。
我々は、進化するコンテキストを段階的にキャプチャして、きめ細かいノード適応を導く新しいフレームワークであるChain-of-Context Learning (CCL)を提案する。
- 参考スコア(独自算出の注目度): 27.821803041439953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task Vehicle Routing Problems (VRPs) aim to minimize routing costs while satisfying diverse constraints. Existing solvers typically adopt a unified reinforcement learning (RL) framework to learn generalizable patterns across tasks. However, they often overlook the constraint and node dynamics during the decision process, making the model fail to accurately react to the current context. To address this limitation, we propose Chain-of-Context Learning (CCL), a novel framework that progressively captures the evolving context to guide fine-grained node adaptation. Specifically, CCL constructs step-wise contextual information via a Relevance-Guided Context Reformulation (RGCR) module, which adaptively prioritizes salient constraints. This context then guides node updates through a Trajectory-Shared Node Re-embedding (TSNR) module, which aggregates shared node features from all trajectories' contexts and uses them to update inputs for the next step. By modeling evolving preferences of the RL agent, CCL captures step-by-step dependencies in sequential decision-making. We evaluate CCL on 48 diverse VRP variants, including 16 in-distribution and 32 out-of-distribution (with unseen constraints) tasks. Experimental results show that CCL performs favorably against the state-of-the-art baselines, achieving the best performance on all in-distribution tasks and the majority of out-of-distribution tasks.
- Abstract(参考訳): マルチタスク車両ルーティング問題(VRP)は、様々な制約を満たすとともに、ルーティングコストを最小限にすることを目的としている。
既存のソルバは通常、タスク間で一般化可能なパターンを学ぶために統合強化学習(RL)フレームワークを採用する。
しかし、彼らは意思決定プロセス中に制約やノードのダイナミクスを見落としてしまい、モデルが現在のコンテキストに正確に反応しないようにします。
この制限に対処するため、我々は、進化するコンテキストを段階的にキャプチャして、きめ細かいノード適応を導く新しいフレームワークであるChain-of-Context Learning (CCL)を提案する。
具体的には、CCLはRelevance-Guided Context Reformulation (RGCR)モジュールを通じてステップワイズなコンテキスト情報を構築し、適切な制約を適応的に優先順位付けする。
このコンテキストは、すべてのトラジェクトリのコンテキストから共有ノード機能を集約し、次のステップでインプットを更新する、Trajectory-Shared Node Re-embedding (TSNR)モジュールを通じてノード更新をガイドする。
RLエージェントの進化する好みをモデル化することにより、CCLはシーケンシャルな意思決定においてステップバイステップの依存関係をキャプチャする。
我々は,48種類のVRP変異体に対するCCLの評価を行い,そのうち16の内分布と32のアウト・オブ・ディストリビューション(未確認制約付き)タスクについて検討した。
実験の結果、CCLは最先端のベースラインに対して好適に機能し、すべての分配タスクと分配タスクの大部分において最高のパフォーマンスを達成していることがわかった。
関連論文リスト
- Structure Detection for Contextual Reinforcement Learning [6.56045575313744]
コンテキスト強化学習(Contextual Reinforcement Learning)は、コンテキスト変数によって異なる関連するコンテキストマルコフ決定プロセス(CMDP)の集合を解決する問題に取り組む。
従来のアプローチ – 非依存的なトレーニングとマルチタスク学習 – は、過剰な計算コストや負の転送に対処する。
本稿では,CMDPの基盤となる一般化構造を動的に識別し,適切なMBTLアルゴリズムを選択する汎用フレームワークであるStructure Detection MBTLを紹介する。
論文 参考訳(メタデータ) (2026-01-13T01:22:39Z) - KBQA-R1: Reinforcing Large Language Models for Knowledge Base Question Answering [64.62317305868264]
テキスト模倣から強化学習によるインタラクション最適化へパラダイムをシフトするフレームワークである textbfKBQA-R1 を提案する。
KBQAを多ターン決定プロセスとして扱うことで,行動のリストを用いて知識ベースをナビゲートすることを学ぶ。
WebQSP、GrailQA、GraphQuestionsの実験では、KBQA-R1が最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-10T17:45:42Z) - CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - ContextNav: Towards Agentic Multimodal In-Context Learning [85.05420047017513]
ContextNavは、自動検索のスケーラビリティと人間のようなキュレーションの品質と適応性を統合するエージェントフレームワークである。
リソースを意識したマルチモーダル埋め込みパイプラインを構築し、検索可能なベクトルデータベースを維持し、エージェント検索と構造アライメントを適用して、ノイズ耐性のあるコンテキストを構築する。
実験の結果、ContextNavはさまざまなデータセットで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-06T07:49:52Z) - Submodular Context Partitioning and Compression for In-Context Learning [23.18825768870575]
Sub-CPは、大規模言語モデルのためのブロック対応コンテキスト選択フレームワークである。
選択戦略のフレキシブルなスペクトルをサポートしており、各ブロックは世界規模で多様なものから局所的なコヒーレントまで様々である。
実験の結果、Sub-CPはモデルスケールで継続的に性能を改善している。
論文 参考訳(メタデータ) (2025-09-30T23:42:11Z) - Towards Generalizable Implicit In-Context Learning with Attention Routing [32.86419794893806]
In-Context Routing (ICR) は、注意ログレベルにおいて一般化可能なICLパターンを内部化する新しい暗黙のICL手法である。
多様なドメインと複数の大規模言語モデルにまたがる12の実世界のデータセット上でICRを評価した。
論文 参考訳(メタデータ) (2025-09-26T19:05:45Z) - RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。
役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。
軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文 参考訳(メタデータ) (2025-08-06T21:59:34Z) - DESign: Dynamic Context-Aware Convolution and Efficient Subnet Regularization for Continuous Sign Language Recognition [11.879737436401175]
動的コンテキスト認識畳み込み(DCAC)とサブネット正規化接続性時間分類(SR-CTC)を組み合わせた新しいフレームワークであるDESignを提案する。
DCACは、記号を構成するフレーム間のモーションキューを動的にキャプチャし、コンテキスト情報に基づいて畳み込み重みを一意に適応させる。
SR-CTCは、監督トボリューションワークを適用してトレーニングを規則化し、様々なCTCアライメントパスを探索し、オーバーフィッティングを効果的に防止することを奨励する。
論文 参考訳(メタデータ) (2025-07-04T06:56:28Z) - Scalable In-Context Q-Learning [68.9917436397079]
textbfScalable textbfIn-textbfContext textbfQ-textbfLearning (textbfSICQL)を提案する。
textbfSICQLは動的プログラミングとワールドモデリングを利用して、ICRLを効率的な報酬とタスクの一般化に向けて制御する。
論文 参考訳(メタデータ) (2025-06-02T04:21:56Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Dynamics-Adaptive Continual Reinforcement Learning via Progressive
Contextualization [29.61829620717385]
動的環境におけるCRL(Continuous reinforcement Learning)の鍵となる課題は、環境が生涯にわたって変化するにつれて、RLエージェントの挙動を迅速に適応させることである。
DaCoRLは、進行的文脈化を用いた文脈条件付きポリシーを学習する。
DaCoRLは、安定性、全体的な性能、一般化能力の観点から、既存の方法よりも一貫した優位性を特徴としている。
論文 参考訳(メタデータ) (2022-09-01T10:26:58Z) - Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。
我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文 参考訳(メタデータ) (2022-02-09T15:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。