論文の概要: AgentSim: A Platform for Verifiable Agent-Trace Simulation
- arxiv url: http://arxiv.org/abs/2604.26653v1
- Date: Wed, 29 Apr 2026 13:19:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.415568
- Title: AgentSim: A Platform for Verifiable Agent-Trace Simulation
- Title(参考訳): AgentSim: 検証可能なエージェントトレースシミュレーションプラットフォーム
- Authors: Saber Zerhoudi, Michael Granitzer, Jelena Mitrovic,
- Abstract要約: AgentSimは、RAGエージェントをシミュレートするオープンソースプラットフォームである。
これは、任意のドキュメントコレクションに対するエージェント推論の検証可能な段階的なトレースを生成する。
マルチモデル検証パイプラインとアクティブなHuman-in-the-loopプロセスを組み合わせる。
- 参考スコア(独自算出の注目度): 3.2058241360543254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training trustworthy agentic LLMs requires data that shows the grounded reasoning process, not just the final answer. Existing datasets fall short: question-answering data is outcome-only, chain-of-thought data is not tied to specific documents, and web-agent datasets track interface actions rather than the core retrieval and synthesis steps of a RAG workflow. We introduce AgentSim, an open-source platform for simulating RAG agents. It generates verifiable, stepwise traces of agent reasoning over any document collection. AgentSim uses a policy to ensure the agent widely explores the document set. It combines a multi-model validation pipeline with an active human-in-the-loop process. This approach focuses human effort on difficult steps where models disagree. Using AgentSim, we construct and release the Agent-Trace Corpus (ATC), a large collection of grounded reasoning trajectories spanning three established IR benchmarks. We make three contributions: (1) the AgentSim platform with two mechanisms, Corpus-Aware Seeding and Active Validation, that improve trace diversity and quality; (2) the Agent-Trace Corpus (ATC), over 103,000 verifiable reasoning steps spanning three IR benchmarks, with 100% grounding rate on substantive answers; and (3) a comparative behavioral analysis revealing systematic differences in how state-of-the-art models approach information seeking. Platform, toolkit, and corpus are publicly available.
- Abstract(参考訳): 信頼できるエージェントLLMのトレーニングには、最終回答だけでなく、根拠となる推論プロセスを示すデータが必要です。
既存のデータセットは不足している: 質問回答データは結果のみ、チェーンオブ思想データは特定のドキュメントに縛られず、WebエージェントデータセットはRAGワークフローのコア検索と合成ステップではなく、インターフェイスアクションを追跡する。
本稿では,RAGエージェントをシミュレートするオープンソースプラットフォームであるAgentSimを紹介する。
これは、任意のドキュメントコレクションに対するエージェント推論の検証可能な段階的なトレースを生成する。
AgentSimはポリシーを使用して、エージェントがドキュメントセットを広く探索することを保証する。
マルチモデル検証パイプラインとアクティブなHuman-in-the-loopプロセスを組み合わせる。
このアプローチは、モデルが反対する難しいステップに人間の努力に焦点を当てます。
Agent-Trace Corpus (ATC) は,既存の3つのIRベンチマークにまたがる基盤的推論トラジェクトリの集合体である。
我々は,(1)コーパス・アウェア・シーディング(Corpus-Aware Seeding)とアクティブ・バリデーション(Active Validation)の2つのメカニズム,(2)エージェント・トレース・コーパス(ATC)の3つのIRベンチマークにまたがる103,000以上の検証可能な推論ステップ,(3)最先端の回答に対する100%の根拠付け率,(3)最先端のモデルが情報検索にどのようにアプローチするかの体系的な違いを示す比較行動分析を行う。
プラットフォーム、ツールキット、コーパスが公開されている。
関連論文リスト
- AgentIR: Reasoning-Aware Retrieval for Deep Research Agents [76.29382561831105]
ディープリサーチエージェントは、各検索の前に明示的な自然言語推論を生成する。
Reasoning-Aware Retrievalは、クエリと一緒にエージェントの推論トレースを埋め込む。
DR-Synthは、標準的なQAデータセットからDeep Researchレトリバーのトレーニングデータを生成する。
AgentIR-4Bは、オープンウェイトエージェントであるTongyi-DeepResearchで68%の精度を達成する。
論文 参考訳(メタデータ) (2026-03-04T18:47:26Z) - AgentSelect: Benchmark for Narrative Query-to-Agent Recommendation [39.61543921719145]
AgentSelectは、エージェントの選択をナラティブクエリからエージェントへのレコメンデーションとして再設計するベンチマークである。
異種評価アーティファクトを、統一された正のみの相互作用データに変換する。
AgentSelectは、エージェントレコメンデーションのための最初の統一データと評価インフラストラクチャを提供する。
論文 参考訳(メタデータ) (2026-03-04T06:17:51Z) - Agent2World: Learning to Generate Symbolic World Models via Adaptive Multi-Agent Feedback [51.22403664895878]
Agent2Worldは、強力な推論時ワールドモデル生成を実現するツール拡張マルチエージェントフレームワークである。
また、マルチエージェントフィードバックの生成を基盤にすることで、教師付き微調整のためのデータエンジンとしても機能する。
論文 参考訳(メタデータ) (2025-12-26T18:54:14Z) - MoRAgent: Parameter Efficient Agent Tuning with Mixture-of-Roles [25.198556596878362]
本稿では,エージェントタスクにおけるパラメータ効率細調整(PEFT)の3つの重要な戦略を紹介する。
より支配的なReason+Actionパラダイムに着想を得て、エージェントタスクに必要な機能を3つの異なる役割に分解する。
そこで我々は3つのLoRAグループからなるMixture-of-Roles(Mixture-of-Roles)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-25T15:02:07Z) - Multi-Agent Systems for Dataset Adaptation in Software Engineering: Capabilities, Limitations, and Future Directions [8.97512410819274]
本稿では,データセット適応タスクにおいて,最先端のマルチエージェントシステムがどのように機能するかについて,最初の実証的研究を行う。
我々は、GitHub Copilotを評価し、ROCODEやLogHub2.0といったベンチマークリポジトリからSE研究成果物を適用する。
その結果、現在のシステムはキーファイルを識別し、部分的な適応を生成することができるが、正しい実装を生成することは滅多にない。
論文 参考訳(メタデータ) (2025-11-26T13:26:11Z) - MCP-Orchestrated Multi-Agent System for Automated Disinformation Detection [84.75972919995398]
本稿では,関係抽出を用いてニュース記事の偽情報を検出するマルチエージェントシステムを提案する。
提案したエージェントAIシステムは、(i)機械学習エージェント(ロジスティック回帰)、(ii)Wikipedia知識チェックエージェント、(iv)Webスクラッドデータアナライザの4つのエージェントを組み合わせる。
その結果、マルチエージェントアンサンブルはF1スコア0.964で95.3%の精度を達成し、個々のエージェントや従来のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-13T19:14:48Z) - AgentRE: An Agent-Based Framework for Navigating Complex Information Landscapes in Relation Extraction [10.65417796726349]
複雑なシナリオにおける関係抽出(RE)は、多種多様な関係型や単一の文内のエンティティ間のあいまいな関係のような課題に直面します。
本稿では,複雑なシナリオにおいてREを実現するために,大規模言語モデルの可能性を完全に活用するエージェントベースのREフレームワークであるAgentREを提案する。
論文 参考訳(メタデータ) (2024-09-03T12:53:05Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。