論文の概要: Evaluating Memory Condensation Strategies for Coding Agents in Data-Driven Scientific Discovery
- arxiv url: http://arxiv.org/abs/2605.18854v1
- Date: Wed, 13 May 2026 13:10:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.672581
- Title: Evaluating Memory Condensation Strategies for Coding Agents in Data-Driven Scientific Discovery
- Title(参考訳): データ駆動型科学的発見における符号化エージェントのメモリ凝縮戦略の評価
- Authors: Renuka Chintalapati, Sid Raskar, Anurag Acharya, Jared Willard, Patrick Emami, Sameera Horawalavithana,
- Abstract要約: 我々は,6つの領域にまたがる60のDiscoveryBenchタスクに対して,GPT-4oを用いた8つのメモリ凝縮戦略を評価した。
LLMをベースとした凝縮器はトークンコストを24~94パーセント増加させる一方、凝縮器は仮説の質を著しく変えることはない。
また、データ駆動型科学的発見のための最適な凝縮器は、科学的領域と課題の長さによって異なることを観察する。
- 参考スコア(独自算出の注目度): 4.653515368797816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Coding agents accumulate extensive context during long-running tasks, yet fixed context windows force practitioners to choose between truncation and task failure. While numerous memory condensation strategies have been proposed, from simple sliding windows to LLM-generated summaries, no systematic comparison exists to guide strategy selection, especially in scientific discovery tasks. We evaluate eight memory condensation strategies using GPT-4o on sixty DiscoveryBench tasks spanning six scientific domains (480 total evaluations). We find that no condenser significantly alters hypothesis quality, while LLM-based condensers increase token costs by 24-94 percent, and masking tool-call outputs achieves an 8.6 percent net savings. We also observe that the optimal condenser for data-driven scientific discovery varies by scientific domain and task length.
- Abstract(参考訳): コーディングエージェントは、長時間実行中の広範囲なコンテキストを蓄積するが、固定されたコンテキストウィンドウでは、実行者がトランケーションとタスクの失敗を選択せざるを得ない。
単純なスライディングウィンドウからLCM生成サマリーまで、多くのメモリ凝縮戦略が提案されているが、特に科学的発見タスクにおいて、戦略選択を導くための体系的な比較は存在しない。
GPT-4oを用いて6つの科学的領域にまたがる60個のDiscoveryBenchタスク(合計480個の評価)を用いて8つのメモリ凝縮戦略を評価した。
LLMをベースとしたコンデンサはトークンコストを24~94パーセント増加させ、マスキングツールコール出力は8.6%のネットセーブを達成する。
また、データ駆動型科学的発見のための最適な凝縮器は、科学的領域と課題の長さによって異なることを観察する。
関連論文リスト
- MemMachine: A Ground-Truth-Preserving Memory System for Personalized AI Agents [2.541923091180284]
大規模言語モデル(LLM)エージェントはパーソナライゼーション、事実連続性、長期的推論を維持するために永続記憶を必要とする。
本稿では,短期,長期,プロファイルメモリを統合したオープンソースのメモリシステムであるMemMachineを紹介する。
MemMachineは、コンテキスト化された検索を使用して、周囲のコンテキストにマッチする核を拡大し、関連するエビデンスが複数の対話にまたがる場合のリコールを改善する。
論文 参考訳(メタデータ) (2026-04-06T16:57:06Z) - Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory [76.63021613850093]
我々は、生涯にわたるAIエージェントのための統合マルチモーダルメモリフレームワークであるOmni-SimpleMemを発見するために、自律的な研究パイプラインをデプロイする。
システムは2つのベンチマークで最先端を実現し、LoCoMoではF1を+411%改善し、Mem-Galleryでは+214%向上した。
本稿では,6種類の発見型を分類し,特に自動検索に適したマルチモーダルメモリを実現する4つの特性を同定する。
論文 参考訳(メタデータ) (2026-04-01T15:06:23Z) - PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents [74.4491017652226]
タスク固有の再設計なしに任意のLLMエージェントにアタッチ可能なタスク非依存メモリモジュールであるPlugMemを提案する。
意思決定関連情報が生の経験よりも抽象的な知識として集中しているという事実に感銘されて、認識科学に焦点をあてて、エピソード記憶をコンパクトで知識中心の記憶グラフに構造化する。
PlugMemを3つのベンチマーク(長期会話型質問応答、マルチホップ知識検索、Webエージェントタスク)で評価する。
論文 参考訳(メタデータ) (2026-02-06T18:55:38Z) - MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning [73.27233666920618]
本稿では,メモリを反復的に保持し,現在のターンと組み合わせたエージェントワークフローであるMemSearcherを提案する。
それぞれのターンで、MemSearcherはユーザーの質問をメモリに融合させ、推論トレースを生成し、検索アクションを実行し、メモリを更新してタスクの解決に必要な情報のみを保持する。
我々は,MemSearcher Agents の推論,検索戦略,メモリ管理を協調的に最適化する,エンドツーエンドの RL フレームワークである Multi-context GRPO を紹介する。
論文 参考訳(メタデータ) (2025-11-04T18:27:39Z) - ChemBOMAS: Accelerated BO in Chemistry with LLM-Enhanced Multi-Agent System [72.63341091857959]
本稿では,大規模言語モデル(LLM)によるベイズ最適化を高速化するマルチエージェントシステムであるChemBOMASを紹介する。
データ駆動型戦略は、わずか1%のラベル付きサンプルに微調整された8BスケールのLCMレジストレータを含む。
知識駆動型戦略では、検索空間の分割においてLLMを導くために、ハイブリッドなRetrieval-Augmented Generationアプローチを採用している。
ChemBOMASはベースライン方式に比べて最適化効率を最大5倍に向上させた。
論文 参考訳(メタデータ) (2025-09-10T16:24:08Z) - Towards Storage-Efficient Visual Document Retrieval: An Empirical Study on Reducing Patch-Level Embeddings [70.26204343623215]
ColPali/ColQwen2は各ページを複数のパッチレベルの埋め込みにエンコードし、過剰なメモリ使用率をもたらす。
本研究では,ページごとのパッチ埋め込みを最小性能劣化時に低減する方法について検討する。
論文 参考訳(メタデータ) (2025-06-05T13:06:01Z) - xCOMET-lite: Bridging the Gap Between Efficiency and Quality in Learned MT Evaluation Metrics [69.14652127492438]
xCOMETのような最先端の機械翻訳評価指標は、人間の判断と高い相関性を得るが、大きなエンコーダに依存している。
我々は, 蒸留, 定量化, プルーニング技術を用いて, 効率的なxCOMET代替品を作成する。
量子化により,xCOMETは3倍の圧縮が可能であり,品質劣化は生じない。
論文 参考訳(メタデータ) (2024-06-20T17:58:34Z) - Elucidating the Design Space of Dataset Condensation [23.545641118984115]
データ中心学習の概念であるデータセット凝縮は、オリジナルのデータセットから合成バージョンに重要な属性を効率的に転送する。
本稿では,ソフトカテゴリ対応マッチングの実装のような,具体的な効果的な戦略を含む包括的な設計フレームワークを提案する。
我々のテストでは、ECCは最先端の精度を達成し、圧縮比0.78%に相当するResNet-18モデルでImageNet-1kで48.6%に達した。
論文 参考訳(メタデータ) (2024-04-21T18:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。