論文の概要: Learning to Decide with Just Enough: Information-Theoretic Context Summarization for CDMPs
- arxiv url: http://arxiv.org/abs/2510.01620v1
- Date: Thu, 02 Oct 2025 02:52:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.961147
- Title: Learning to Decide with Just Enough: Information-Theoretic Context Summarization for CDMPs
- Title(参考訳): CDMPのための情報理論コンテキスト要約
- Authors: Peidong Liu, Junjiang Lin, Shaowen Wang, Yao Xu, Haiqing Li, Xuhao Xie, Siyi Wu, Hao Li,
- Abstract要約: コンテキストマルコフ決定プロセス(CMDP)は、外部信号の下でのシーケンシャルな意思決定のためのフレームワークを提供する。
本稿では,大言語モデル(LLM)を用いて文脈入力を低次元,意味的に豊かな要約に圧縮する情報理論の要約手法を提案する。
- 参考スコア(独自算出の注目度): 23.111877248835736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual Markov Decision Processes (CMDPs) offer a framework for sequential decision-making under external signals, but existing methods often fail to generalize in high-dimensional or unstructured contexts, resulting in excessive computation and unstable performance. We propose an information-theoretic summarization approach that uses large language models (LLMs) to compress contextual inputs into low-dimensional, semantically rich summaries. These summaries augment states by preserving decision-critical cues while reducing redundancy. Building on the notion of approximate context sufficiency, we provide, to our knowledge, the first regret bounds and a latency-entropy trade-off characterization for CMDPs. Our analysis clarifies how informativeness impacts computational cost. Experiments across discrete, continuous, visual, and recommendation benchmarks show that our method outperforms raw-context and non-context baselines, improving reward, success rate, and sample efficiency, while reducing latency and memory usage. These findings demonstrate that LLM-based summarization offers a scalable and interpretable solution for efficient decision-making in context-rich, resource-constrained environments.
- Abstract(参考訳): 文脈マルコフ決定プロセス(CMDP)は、外部信号の下でのシーケンシャルな意思決定のためのフレームワークを提供するが、既存の手法は高次元または非構造化の文脈で一般化できず、過剰な計算と不安定な性能をもたらす。
本稿では,大言語モデル(LLM)を用いて文脈入力を低次元,意味的に豊かな要約に圧縮する情報理論の要約手法を提案する。
これらの要約は、冗長性を減らしながら決定クリティカルな手がかりを保ち、状態を増大させる。
我々は, 文脈十分性の概念に基づいて, 我々の知識, 最初の後悔境界, CMDPの遅延エントロピートレードオフ特性を提供する。
分析により,情報性が計算コストに与える影響を明らかにした。
離散的,連続的,視覚的,レコメンデーションのベンチマークによる実験の結果,本手法は生のコンテキストベースラインや非コンテキストベースラインよりも優れており,報奨率,成功率,サンプル効率が向上し,レイテンシやメモリ使用量の削減が図られている。
これらの結果は、LLMに基づく要約が、文脈に富んだリソース制約のある環境において、効率的な意思決定のためのスケーラブルで解釈可能なソリューションを提供することを示している。
関連論文リスト
- PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - QUITO-X: A New Perspective on Context Compression from the Information Bottleneck Theory [66.01597794579568]
問題をモデル化するために情報ボトルネック理論(IB)を導入する。
IBにおける相互情報に近似するクロスアテンションに基づく手法を提案する。
提案手法は,最先端技術と比較して25%の圧縮率向上を実現している。
論文 参考訳(メタデータ) (2024-08-20T02:44:45Z) - Adapting LLMs for Efficient Context Processing through Soft Prompt Compression [1.1550486371582305]
本稿では,大規模言語モデルを合理化された文脈処理のために戦略的に調整する,革新的なフレームワークを提案する。
我々の手法はSoftPromptCompと呼ばれ、動的に生成されたソフトプロンプトで自然言語をアマルガメイトし、簡潔でセマンティックに頑健な文脈の描写をフォージする。
我々は,我々のフレームワークが計算オーバーヘッドを著しく減らし,LLMの有効性を様々なベンチマークで向上させることを実証した。
論文 参考訳(メタデータ) (2024-04-07T15:44:20Z) - Enhancing Systematic Decompositional Natural Language Inference Using Informal Logic [51.967603572656266]
我々は,分解包含を注釈付けするための一貫した理論的なアプローチを導入する。
我々の新しいデータセットRDTEは、前回の分解エンターメントデータセットよりもかなり高い内部整合性(+9%)を持つことがわかった。
また,RDTE による知識蒸留によるエンテーメント分類器の訓練や,エンテーメントツリー推論エンジンへの導入により,精度と検証精度が向上することが確認された。
論文 参考訳(メタデータ) (2024-02-22T18:55:17Z) - From Contextual Data to Newsvendor Decisions: On the Actual Performance of Data-Driven Algorithms [8.714718004930363]
本研究では,過去のデータとの関連性と量が,データ駆動型ポリシーの性能に与える影響について検討する。
我々は,「密接な状況下で観察された過去の要求は,分布の密接な関係から生じると考える。
論文 参考訳(メタデータ) (2023-02-16T17:03:39Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。