論文の概要: LOGIGEN: Logic-Driven Generation of Verifiable Agentic Tasks
- arxiv url: http://arxiv.org/abs/2603.00540v1
- Date: Sat, 28 Feb 2026 08:35:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.250524
- Title: LOGIGEN: Logic-Driven Generation of Verifiable Agentic Tasks
- Title(参考訳): LOGIGEN:検証可能なエージェントタスクの論理駆動生成
- Authors: Yucheng Zeng, Weipeng Lu, Linyun Liu, Shupeng Li, Zitian Qu, Chenghao Zhu, Shaofei Li, Zhengdong Tan, Mengyue Liu, Haotian Zhao, Zhe Zhou, Jianmin Wu,
- Abstract要約: 検証可能なトレーニングデータを合成するロジック駆動フレームワークである textbfLOGIGEN を紹介する。
2$-Benchでは、LOGIGEN-32B(RL)がtextbf79.5%の成功率を獲得し、ベースモデルを大幅に上回っている。
- 参考スコア(独自算出の注目度): 4.6880826836662814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evolution of Large Language Models (LLMs) from static instruction-followers to autonomous agents necessitates operating within complex, stateful environments to achieve precise state-transition objectives. However, this paradigm is bottlenecked by data scarcity, as existing tool-centric reverse-synthesis pipelines fail to capture the rigorous logic of real-world applications. We introduce \textbf{LOGIGEN}, a logic-driven framework that synthesizes verifiable training data based on three core pillars: \textbf{Hard-Compiled Policy Grounding}, \textbf{Logic-Driven Forward Synthesis}, and \textbf{Deterministic State Verification}. Specifically, a Triple-Agent Orchestration is employed: the \textbf{Architect} compiles natural-language policy into database constraints to enforce hard rules; the \textbf{Set Designer} initializes boundary-adjacent states to trigger critical policy conflicts; and the \textbf{Explorer} searches this environment to discover causal solution paths. This framework yields a dataset of 20,000 complex tasks across 8 domains, where validity is strictly guaranteed by checking exact state equivalence. Furthermore, we propose a verification-based training protocol where Supervised Fine-Tuning (SFT) on verifiable trajectories establishes compliance with hard-compiled policy, while Reinforcement Learning (RL) guided by dense state-rewards refines long-horizon goal achievement. On $τ^2$-Bench, LOGIGEN-32B(RL) achieves a \textbf{79.5\% success rate}, substantially outperforming the base model (40.7\%). These results demonstrate that logic-driven synthesis combined with verification-based training effectively constructs the causally valid trajectories needed for next-generation agents.
- Abstract(参考訳): 静的命令フォロワから自律エージェントへの大規模言語モデル(LLM)の進化は、正確な状態遷移目標を達成するために、複雑なステートフルな環境での運用を必要とする。
しかし、このパラダイムは、既存のツール中心の逆合成パイプラインが現実世界のアプリケーションの厳密なロジックを捕捉できないため、データの不足によってボトルネックになっている。
論理駆動型フレームワークである \textbf{LOGIGEN} を紹介する。このフレームワークは,3つの柱に基づいて検証可能なトレーニングデータを合成する。
具体的には、トリプル-エージェントオーケストレーションが採用されている: \textbf{Architect}は、ハードルールを強制するために自然言語ポリシーをデータベースの制約にコンパイルする; \textbf{Set Designer}は、重要なポリシー競合を引き起こすために境界に隣接した状態を初期化し、 \textbf{Explorer}は、この環境を探索して因果的なソリューションパスを発見する。
このフレームワークは、8つのドメインにわたる20,000の複雑なタスクのデータセットを生成する。
さらに、検証可能な軌道上での監視ファインタニング(SFT)がハードコンパイルされたポリシーに準拠する検証ベースのトレーニングプロトコルを提案し、一方、強化学習(RL)は高密度なステートリワードによってガイドされ、長期の目標達成が洗練される。
τ^2$-Bench では、LOGIGEN-32B(RL) が \textbf{79.5\% の成功率を達成し、ベースモデル(40.7\%)を大幅に上回る。
これらの結果は, 論理駆動型合成と検証に基づく学習が組み合わさって, 次世代エージェントに必要な因果的に有効な軌道を効果的に構築することを示した。
関連論文リスト
- Relatron: Automating Relational Machine Learning over Relational Databases [50.94254514286021]
本稿では, RDL と DFS を共有設計空間に統合し, 多様な RDB タスクを対象としたアーキテクチャ中心の検索を行う。
RDLはDFSを一貫して上回り、高いタスク依存性を持つ。(2)タスク全体において単一のアーキテクチャが支配的であり、タスク認識モデル選択の必要性を強調し、精度は選択アーキテクチャの信頼性の低いガイドである。
論文 参考訳(メタデータ) (2026-02-26T02:45:22Z) - NGDB-Zoo: Towards Efficient and Scalable Neural Graph Databases Training [55.35217340229661]
NGDB-Zooは,演算子レベルのトレーニングをセマンティック拡張と相乗化することでボトルネックを解消する統合フレームワークである。
NGDB-Zooは多種多様な論理パターンにまたがって高いGPU利用率を維持し, ハイブリッド型ニューロシンボリック推論における摩擦を著しく軽減することを示した。
論文 参考訳(メタデータ) (2026-02-25T05:46:42Z) - ReSyn: Autonomously Scaling Synthetic Environments for Reasoning Models [18.359969463106644]
検証可能な報酬付き強化学習(RLVR)は、推論言語モデル(RLM)を訓練するための有望なアプローチとして登場した。
本研究では、インスタンスジェネレータと検証器を備えた多様な推論環境を生成するパイプラインであるReSynを導入することにより、RLVRをスケールする。
論文 参考訳(メタデータ) (2026-02-23T18:34:29Z) - AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis [30.512393568258105]
大規模言語モデルエージェントは、ツールを介して現実世界の問題を解決する可能性を実証するが、汎用的な知性は、質の低い長期データによってボトルネックとなる。
本稿では,現実的なセマンティックなドメイン間でのマルチターンインタラクションデータを合成する,完全に自動化されたフレームワークであるAgentSkillerを提案する。
論文 参考訳(メタデータ) (2026-02-10T03:21:42Z) - Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision [11.159231524113764]
マルチモーダル大規模言語モデル(MLLM)の複雑な推論能力を高めるための重要なメカニズムとして強化学習(RL)が登場した。
本稿では,これらの構造的制約に対処する textbfGuided Verifier フレームワークを提案する。
我々は,マルチモーダル幻覚をターゲットとした特殊なデータ合成パイプラインを開発し,プロセスレベルの負の textbfCoRe データセットとtextbfCorrect-guide textbfReasoning トラジェクトリを構築し,ガイド付き検証器を訓練する。
論文 参考訳(メタデータ) (2026-02-04T07:38:42Z) - OMG-Agent: Toward Robust Missing Modality Generation with Decoupled Coarse-to-Fine Agentic Workflows [9.617220633655716]
textbfunderlineOmni-textbfunderlineModality textbfunderlineGeneration Agent (textbfOMG-Agent)について述べる。
論文 参考訳(メタデータ) (2026-02-04T02:25:40Z) - ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas [13.919124676472022]
ASTRAは、ツール拡張言語モデルエージェントをトレーニングするためのエンドツーエンドフレームワークである。
ASTRAはスケーラブルなデータ合成と検証可能な強化学習を統合している。
複数のエージェントツール使用ベンチマークの実験は、ASTRA訓練されたモデルが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-01-29T11:22:23Z) - Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem [90.17610617854247]
本稿では,エージェントモデルの生産パイプラインを最適化する基盤インフラであるエージェント学習エコシステム(ALE)を紹介する。
ALEは、重量最適化のためのトレーニング後のフレームワークであるROLL、軌道生成のためのサンドボックス環境マネージャであるROCK、効率的なコンテキストエンジニアリングのためのエージェントフレームワークであるiFlow CLIの3つのコンポーネントで構成されている。
ROMEはALEが基盤として100万件以上のトラジェクトリをトレーニングしたオープンソースエージェントです。
論文 参考訳(メタデータ) (2025-12-31T14:03:39Z) - Managing the Stochastic: Foundations of Learning in Neuro-Symbolic Systems for Software Engineering [0.27195102129094995]
AIコーディングエージェントに対する現在のアプローチは、大規模言語モデルとエージェント自体の境界を曖昧にしている。
本稿では, LLM が環境環境の構成要素として扱われるように制御境界を設定することを提案する。
論文 参考訳(メタデータ) (2025-12-18T15:28:21Z) - KBQA-R1: Reinforcing Large Language Models for Knowledge Base Question Answering [64.62317305868264]
テキスト模倣から強化学習によるインタラクション最適化へパラダイムをシフトするフレームワークである textbfKBQA-R1 を提案する。
KBQAを多ターン決定プロセスとして扱うことで,行動のリストを用いて知識ベースをナビゲートすることを学ぶ。
WebQSP、GrailQA、GraphQuestionsの実験では、KBQA-R1が最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-10T17:45:42Z) - EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning [63.03672166010434]
我々は、進化的、タスクに依存しない、戦略を導いた、実行可能検証可能なデータ合成フレームワークを紹介します。
問題、多様な候補解、検証成果物を共同で合成する。
これは、人間による注釈付きチェックと戦略によるチェックの合意を強制する一貫性に基づく評価器を通じて戦略を反復的に発見する。
論文 参考訳(メタデータ) (2025-10-20T11:56:35Z) - Dynamic Generation of Multi-LLM Agents Communication Topologies with Graph Diffusion Models [99.85131798240808]
我々はtextitGuided Topology Diffusion (GTD) と呼ばれる新しい生成フレームワークを導入する。
条件付き離散グラフ拡散モデルにインスパイアされたGTD式は、反復的な構成過程としてトポロジー合成を行う。
各ステップで生成は、多目的報酬を予測する軽量プロキシモデルによって制御される。
実験により、GTDは高いタスク適応性、スパース、効率的な通信トポロジを生成できることが示されている。
論文 参考訳(メタデータ) (2025-10-09T05:28:28Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。