論文の概要: daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently
- arxiv url: http://arxiv.org/abs/2602.02619v2
- Date: Wed, 04 Feb 2026 04:59:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 15:07:33.719973
- Title: daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently
- Title(参考訳): daVinci-Agency: ロングホライゾンエージェンシーのデータを効率的にアンロックする
- Authors: Mohan Jiang, Dayuan Fu, Junhao Shi, Ji Zeng, Weiye Si, Keyu Li, Xuefeng Li, Yang Xiao, Wenjie Li, Dequan Wang, Pengfei Liu,
- Abstract要約: 大規模言語モデル(LLM)は短期的なタスクで優れており、それらを長期のエージェント合成に拡張することは依然として困難である。
本稿では,PRチェーンから構造化監視を体系的にマイニングするdaVinci-Agencyを提案する。
DaVinci-AgencyのPR基底構造は、本質的には、永続的なゴールサイクルの振る舞いを教えるのに不可欠な因果依存性と反復的な洗練を保っている。
- 参考スコア(独自算出の注目度): 35.39097522391409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) excel at short-term tasks, scaling them to long-horizon agentic workflows remains challenging. The core bottleneck lies in the scarcity of training data that captures authentic long-dependency structures and cross-stage evolutionary dynamics--existing synthesis methods either confine to single-feature scenarios constrained by model distribution, or incur prohibitive human annotation costs, failing to provide scalable, high-quality supervision. We address this by reconceptualizing data synthesis through the lens of real-world software evolution. Our key insight: Pull Request (PR) sequences naturally embody the supervision signals for long-horizon learning. They decompose complex objectives into verifiable submission units, maintain functional coherence across iterations, and encode authentic refinement patterns through bug-fix histories. Building on this, we propose daVinci-Agency, which systematically mines structured supervision from chain-of-PRs through three interlocking mechanisms: (1) progressive task decomposition via continuous commits, (2) long-term consistency enforcement through unified functional objectives, and (3) verifiable refinement from authentic bug-fix trajectories. Unlike synthetic trajectories that treat each step independently, daVinci-Agency's PR-grounded structure inherently preserves the causal dependencies and iterative refinements essential for teaching persistent goal-directed behavior and enables natural alignment with project-level, full-cycle task modeling. The resulting trajectories are substantial--averaging 85k tokens and 116 tool calls--yet remarkably data-efficient: fine-tuning GLM-4.6 on 239 daVinci-Agency samples yields broad improvements across benchmarks, notably achieving a 47% relative gain on Toolathlon. Beyond benchmark performance, our analysis confirms...
- Abstract(参考訳): 大きな言語モデル(LLM)は短期的なタスクでは優れていますが、それらを長期のエージェントワークフローにスケールすることは依然として困難です。
モデル分布によって制約された単一機能シナリオに限定するか、あるいは禁止された人間のアノテーションコストを発生させることなく、スケーラブルで高品質な監視を提供しない、既存の合成方法です。
実際のソフトウェア進化のレンズを通してデータ合成を再認識することで、この問題に対処する。
我々の重要な洞察は、プルリクエスト(PR)シーケンスは、長期学習のための監視シグナルを自然に具現化する。
彼らは複雑な目的を検証可能な提出単位に分解し、反復を通して機能的一貫性を維持し、バグ修正履歴を通じて真に洗練されたパターンを符号化する。
そこで我々は,(1)連続コミットによるプログレッシブタスクの分解,(2)統合機能目的による長期的一貫性の強化,(3)真正なバグフィックストラジェクトリによる改善の検証,という3つのインターロッキング機構を通じて,組織的にPRの連鎖から構造的な監督をマイニングするdaVinci-Agencyを提案する。
それぞれのステップを独立して扱う合成軌道とは異なり、daVinci-AgencyのPR基底構造は本質的に、永続的な目標指向の振る舞いを教えるのに不可欠な因果依存性と反復的洗練を保ち、プロジェクトレベルのフルサイクルタスクモデリングと自然な整合を可能にする。
239 daVinci-Agencyサンプルの微調整 GLM-4.6 はベンチマーク全体で広範囲に改善され、特にToolathlonでは47%の相対的な向上が達成されている。
ベンチマークのパフォーマンスだけでなく、我々の分析も確認している。
関連論文リスト
- EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning [63.03672166010434]
我々は、進化的、タスクに依存しない、戦略を導いた、実行可能検証可能なデータ合成フレームワークを紹介します。
問題、多様な候補解、検証成果物を共同で合成する。
これは、人間による注釈付きチェックと戦略によるチェックの合意を強制する一貫性に基づく評価器を通じて戦略を反復的に発見する。
論文 参考訳(メタデータ) (2025-10-20T11:56:35Z) - Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.778703252962092]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。
外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文 参考訳(メタデータ) (2025-10-20T07:53:51Z) - Unsupervised Online 3D Instance Segmentation with Synthetic Sequences and Dynamic Loss [52.28880405119483]
教師なしのオンライン3Dインスタンスのセグメンテーションは、基本的だが難しい課題だ。
UNITのような既存の手法はこの方向に進んできたが、訓練の多様性が制限されているままである。
本稿では,合成点雲列生成によるトレーニング分布の強化を目的とした新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T08:53:27Z) - RationAnomaly: Log Anomaly Detection with Rationality via Chain-of-Thought and Reinforcement Learning [27.235259453535537]
RationAnomalyは、Chain-of-Thoughtファインチューニングと強化学習を相乗化することにより、ログの異常検出を強化する新しいフレームワークである。
コードとデータセットを含む、対応するリソースをリリースしました。
論文 参考訳(メタデータ) (2025-09-18T07:35:58Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。