論文の概要: Kintsugi: Learning Policies by Repairing Executable Knowledge Bases
- arxiv url: http://arxiv.org/abs/2605.09487v1
- Date: Sun, 10 May 2026 11:51:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.27496
- Title: Kintsugi: Learning Policies by Repairing Executable Knowledge Bases
- Title(参考訳): Kintsugi: 実行可能な知識ベースを修復してポリシを学習する
- Authors: Teng Cao, Yu Deng, Hikaru Shindo, Quentin Delfosse, Lanxi Wen, Suli Wang, Jannis Blüml, Christopher Tauchmann, Kristian Kersting,
- Abstract要約: Kintsugiは、タスクレベルのポリシー知識を、構成可能な型付きエントリとして表現する。
ロールアウトの間、ツールに制約のある編集ループが軌道障害を診断し、編集可能なKB層にローカライズし、候補編集を提案する。
決定論的検証ゲートは、候補の型チェックが実行され、KBが実行された場合にのみ編集を許可し、保護された回帰チェックに違反することなく、集中した検証成功またはトラジェクトリヘルスメトリクスが改善される。
- 参考スコア(独自算出の注目度): 31.289004484222847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern embodied agents achieve impressive performance, but their task knowledge is often stored in neural weights, latent state, or prompt-bound memory, making individual policy knowledge difficult to inspect, validate, recombine, and reuse. We introduce \textbf{Kintsugi}, a white-box policy-learning framework that treats embodied policy improvement as verifier-gated construction of a typed executable Knowledge Base (KB). Kintsugi represents task-level policy knowledge as composable typed entries -- predicates, operators, policy schemas, monitors, recovery rules, experience records, and goals -- and improves this artifact through localized typed edits induced from rollout evidence, rather than relying on test-time language-model reasoning. Between rollouts, a tool-constrained agentic editing loop diagnoses trajectory failures, localizes them to editable KB layers, and proposes candidate edits. A deterministic verification gate admits an edit only when the candidate type-checks, the resulting KB executes, and focused validation success or trajectory-health metrics improve without violating protected-regression checks. At inference, the accepted KB is executed by a deterministic symbolic executor with zero LLM calls. Across long-horizon text-agent benchmarks and representative object-centric manipulation settings, Kintsugi achieves strong endpoint performance while preserving inspectability, local editability, and verifier-gated deployment. These results suggest that embodied policy improvement can be organized around executable task knowledge.
- Abstract(参考訳): 現代の実施エージェントは印象的なパフォーマンスを達成するが、そのタスク知識はニューラルウェイト、潜伏状態、即時バウンドメモリに格納され、個々のポリシー知識の検査、検証、再結合、再利用が困難になる。
我々は,実装された政策改善を,型付き実行可能な知識ベース(KB)の検証付き構築として扱う,ホワイトボックスのポリシー学習フレームワークである「textbf{Kintsugi}」を紹介した。
Kintsugiは、タスクレベルのポリシー知識を構成可能な型付きエントリ(述語、オペレータ、ポリシースキーマ、モニター、リカバリルール、エクスペリエンスレコード、目標)として表現し、テスト時の言語モデル推論に頼るのではなく、ロールアウトエビデンスによって引き起こされた局所化された型付き編集を通じて、このアーティファクトを改善する。
ロールアウトの間、ツールに制約のあるエージェント編集ループが軌道障害を診断し、編集可能なKB層にローカライズし、候補編集を提案する。
決定論的検証ゲートは、候補の型チェックが実行され、KBが実行された場合にのみ編集を許可し、保護された回帰チェックに違反することなく、集中した検証成功またはトラジェクトリヘルスメトリクスが改善される。
推論では、許容KBは、LCMコールがゼロである決定論的シンボリックエグゼキュータによって実行される。
長い水平テキストエージェントベンチマークと代表的なオブジェクト中心の操作設定を通じて、Kintsugiは、検査性、ローカル編集性、検証対象のデプロイを保ちながら、強力なエンドポイントパフォーマンスを実現している。
これらの結果は、実施可能なタスク知識を中心に、具体的政策改善を組織化できることを示唆している。
関連論文リスト
- PYTHALAB-MERA: Validation-Grounded Memory, Retrieval, and Acceptance Control for Frozen-LLM Coding Agents [0.0]
本稿では,ローカル検証条件付きコード生成のための軽量外部コントローラであるPYTHALAB-MERAを紹介する。
厳密な検証ゲートを持つ強化学習コーディングタスクにおけるローカルCLIアーティファクトとしての実装を評価する。
論文 参考訳(メタデータ) (2026-05-08T20:39:32Z) - AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation [71.49152943451328]
我々は,AJ-Benchベンチマークを導入し,ドメイン検索,データシステム,グラフィカルユーザインタフェースの3つの領域にまたがるエージェント・アズ・ア・Judgeを評価する。
実験ではLLM-as-a-Judgeベースラインよりも一貫したパフォーマンス向上を示し、エージェントベースの検証においてかなりオープンな課題を明らかにした。
論文 参考訳(メタデータ) (2026-04-20T13:23:38Z) - PolicyBank: Evolving Policy Understanding for LLM Agents [51.86716874651299]
PolicyBankは構造化されたツールレベルの政策洞察を維持し、それらを反復的に洗練する。
PolicyBankは、人間の神託に対するギャップの最大82%を閉じている。
論文 参考訳(メタデータ) (2026-04-16T20:29:30Z) - RoboPlayground: Democratizing Robotic Evaluation through Structured Physical Domains [19.460905215536254]
ロボット操作システムの評価は、専門家が作成した固定ベンチマークに大きく依存している。
我々は、現代的な操作ポリシーを評価するには、言語駆動のプロセスとしてのリフレーミング評価が必要であると論じる。
本稿では,自然言語を用いて実行可能な操作タスクを作成可能なフレームワークであるRoboPlaygroundを提案する。
論文 参考訳(メタデータ) (2026-04-06T22:42:05Z) - MAC: Multi-Agent Constitution Learning [13.313180901776816]
コンスティチューショナルAIは、自然言語で書かれたルールのセットに基づいてLLMを監督し、制御する手法である。
既存のLCMベースのプロンプト法は、多くのラベル付き例と最適化されたプロンプトの構造が欠如しているため、構成を学ぶのに効果がない。
規則の集合として表される構造化プロンプトを最適化する多言語構成学習(MAC)を提案する。
論文 参考訳(メタデータ) (2026-03-16T22:42:07Z) - Are We Evaluating the Edit Locality of LLM Model Editing Properly? [68.441768731381]
この目的のために既存の特異性評価プロトコルは不十分であることがわかった。
既存の特異度指標は特異度正規化器の強度と弱い相関関係にある。
また、現在のメトリクスには十分な感度が欠けており、異なるメソッドの特異性性能の区別に効果がないこともわかりました。
論文 参考訳(メタデータ) (2026-01-24T07:07:21Z) - Deriving Character Logic from Storyline as Codified Decision Trees [67.01182739162142]
ロールプレイング(RP)エージェントは、さまざまな物語の文脈で一貫して行動するために行動プロファイルに依存する。
大規模物語データから実行可能かつ解釈可能な決定構造を誘導するデータ駆動型フレームワークであるCDT(Condified Decision Trees)を提案する。
論文 参考訳(メタデータ) (2026-01-15T05:12:43Z) - KBQA-R1: Reinforcing Large Language Models for Knowledge Base Question Answering [64.62317305868264]
テキスト模倣から強化学習によるインタラクション最適化へパラダイムをシフトするフレームワークである textbfKBQA-R1 を提案する。
KBQAを多ターン決定プロセスとして扱うことで,行動のリストを用いて知識ベースをナビゲートすることを学ぶ。
WebQSP、GrailQA、GraphQuestionsの実験では、KBQA-R1が最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-10T17:45:42Z) - Rationale-Augmented Retrieval with Constrained LLM Re-Ranking for Task Discovery [4.061135251278187]
GoEngageを利用するヘッドスタートプログラムは、新しいスタッフやローテーションスタッフがプラットフォームホームページで適切なタスクを見つけようとすると、重大な課題に直面します。
これらの困難は、ドメイン固有の用語、システム固有の命名法、およびタイポスや様々な単語順序を扱う際の語彙探索の固有の制限から生じる。
本稿では, 軽量な型付き語彙検索, 埋め込み型ベクトル類似性, 制約付き大言語モデル(LLM)を組み合わさった, 実用的なハイブリッド意味検索システムを提案する。
論文 参考訳(メタデータ) (2025-10-01T01:28:59Z) - Learning Verifiable Control Policies Using Relaxed Verification [49.81690518952909]
本研究は,実行中にプロパティを評価可能なポリシを目標として,トレーニングを通じて検証を実施することを提案する。
アプローチは、微分可能な到達可能性分析を使用して、新しいコンポーネントを損失関数に組み込むことである。
論文 参考訳(メタデータ) (2025-04-23T16:54:35Z) - STACKFEED: Structured Textual Actor-Critic Knowledge Base Editing with FeedBack [9.207360247989346]
FEED(英: Structured Textual Actor-Critic Knowledge base editing with FEEDback approach)は、構造化テキストアクター・クリティカルな知識ベースの編集である。
FEEDは、専門家のフィードバックに基づいて知識ベースを洗練し、マルチアクタ、集中型批評家強化学習フレームワークを使用する。
FEEDはRAGシステムの品質と性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-10-14T14:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。