論文の概要: Distilling Feedback into Memory-as-a-Tool
- arxiv url: http://arxiv.org/abs/2601.05960v1
- Date: Fri, 09 Jan 2026 17:26:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:50.054784
- Title: Distilling Feedback into Memory-as-a-Tool
- Title(参考訳): メモリ・アズ・ア・ツールへのフィードバックの蒸留
- Authors: Víctor Gallego,
- Abstract要約: 本稿では,過渡的批判を検索可能なガイドラインに変換することによって,推論時間推論のコストを償却するフレームワークを提案する。
本稿では,この手法を,ルーリック学習のための新しいデータセットであるFeedback Bench上で評価する。
- 参考スコア(独自算出の注目度): 6.599344783327054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a framework that amortizes the cost of inference-time reasoning by converting transient critiques into retrievable guidelines, through a file-based memory system and agent-controlled tool calls. We evaluate this method on the Rubric Feedback Bench, a novel dataset for rubric-based learning. Experiments demonstrate that our augmented LLMs rapidly match the performance of test-time refinement pipelines while drastically reducing inference cost.
- Abstract(参考訳): 本稿では、ファイルベースのメモリシステムとエージェント制御ツールコールを通じて、過渡的批評を検索可能なガイドラインに変換することにより、推論時間推論のコストを償却するフレームワークを提案する。
本稿では,この手法を,ルーブリック学習のための新しいデータセットであるRubric Feedback Bench上で評価する。
実験により,我々の拡張LDMは,推定コストを大幅に削減しつつ,試験時間改善パイプラインの性能に迅速に適合することを示した。
関連論文リスト
- Beyond Low-rank Decomposition: A Shortcut Approach for Efficient On-Device Learning [5.373015313199385]
デバイス上での学習は、AI開発にとって有望な方向として現れている。
本稿では,メモリと計算制約に対処する代替手法として,新しいショートカット手法を提案する。
我々の手法は、バニラトレーニングと比較して最大120.09時間まで、アクティベーションメモリの使用量を削減できると同時に、従来のベンチマークで評価した場合、全体的なトレーニングFLOPを最大1.86時間まで削減できる。
論文 参考訳(メタデータ) (2025-05-08T09:34:15Z) - Gumbel Reranking: Differentiable End-to-End Reranker Optimization [61.16471123356738]
RAGシステムは関連する文書を識別するためにリランカーに依存している。
注釈付きクエリ-ドキュメントペアが不足しているため、これらのモデルの微調整は依然として難しい。
我々は,トレーニングと推論のギャップを最小限に抑えることを目的とした,リランカーのためのエンドツーエンドのトレーニングフレームワークであるGumbel Re rankを提案する。
論文 参考訳(メタデータ) (2025-02-16T13:23:39Z) - Enhancing Relation Extraction via Supervised Rationale Verification and Feedback [12.687458877141934]
本稿では,関係抽出のための新しいフィードバックフレームワークを提案する。
合理性を検証するための合理性スーパーバイザを提供し、初期予測を正すためのフィードバックとして再選択されたデモを提供する。
提案手法は既存手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2024-12-10T08:18:29Z) - Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Exploiting Correlated Auxiliary Feedback in Parameterized Bandits [56.84649080789685]
そこで本研究では,学習者が追加の補助的フィードバックを観察できるパラメータ化帯域問題の新たな変種について検討する。
補助的なフィードバックは、ユーザのサービス評価(リワード)を観察し、サービス提供時間(補助的なフィードバック)などの追加情報を収集するオンラインプラットフォームなど、多くの現実的なアプリケーションで容易に利用可能である。
論文 参考訳(メタデータ) (2023-11-05T17:27:06Z) - On Pitfalls of $\textit{RemOve-And-Retrain}$: Data Processing Inequality
Perspective [5.8010446129208155]
本研究では,RemOve-And-Retrain(ROAR)手法の信頼性について検討した。
理論的基礎と実証的研究から得られた知見から、決定関数に関するより少ない情報を含む属性がROARベンチマークにおいて優れた結果をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-26T21:43:42Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z) - Latent Template Induction with Gumbel-CRFs [107.17408593510372]
文生成のための潜在テンプレートを推論するための構造化変分オートエンコーダについて検討する。
構造化推論ネットワークとして、トレーニング中に解釈可能なテンプレートを学習することを示す。
論文 参考訳(メタデータ) (2020-11-29T01:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。