Fugu-MT 論文翻訳(概要): NanoResearch: Co-Evolving Skills, Memory, and Policy for Personalized Research Automation

論文の概要: NanoResearch: Co-Evolving Skills, Memory, and Policy for Personalized Research Automation

arxiv url: http://arxiv.org/abs/2605.10813v2
Date: Fri, 15 May 2026 13:23:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 03:45:13.103556
Title: NanoResearch: Co-Evolving Skills, Memory, and Policy for Personalized Research Automation
Title（参考訳）: NanoResearch: パーソナライズされた研究自動化のためのスキル、記憶、ポリシーの共進化
Authors: Jinhang Xu, Qiyuan Zhu, Yujun Wu, Zirui Wang, Dongxu Zhang, Marcia Tian, Yiling Duan, Siyuan Li, Jingxuan Wei, Sirui Han, Yike Guo, Odin Zhang, Conghui He, Cheng Tan,
Abstract要約: LLMを利用したマルチエージェントシステムは、アイデアから論文執筆までの完全な研究パイプラインを自動化できるようになったが、根本的な疑問が残る。我々は,三段階共進化によってこれらのギャップに対処するマルチエージェントフレームワークであるNanoResearchを提案する。技能銀行は、繰り返しの業務をプロジェクト間で再利用可能なコンパクトな手続き規則に蒸留する。メモリモジュールは、各ユーザの研究履歴における計画決定の基礎となる、ユーザとプロジェクト特有のエクスペリエンスを維持します。ラベルフリーポリシー学習は、自由形式のフィードバックをプランナーの永続パラメータ更新に変換し、その後の調整を再構築する。
参考スコア（独自算出の注目度）: 59.19858972597063
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LLM-powered multi-agent systems can now automate the full research pipeline from ideation to paper writing, but a fundamental question remains: automation for whom? Researchers operate under different resource configurations, hold different methodological preferences, and target different output formats. A system that produces uniform outputs regardless of these differences will systematically under-serve every individual user, making personalization a precondition for research automation to be genuinely usable. However, achieving it requires three capabilities that current systems lack: accumulating reusable procedural knowledge across projects, retaining user-specific experience across sessions, and internalizing implicit preferences that resist explicit formalization. We propose NanoResearch, a multi-agent framework that addresses these gaps through tri-level co-evolution. A skill bank distills recurring operations into compact procedural rules reusable across projects. A memory module maintains user- and project-specific experience that grounds planning decisions in each user's research history. A label-free policy learning converts free-form feedback into persistent parameter updates of the planner, reshaping subsequent coordination. These three layers co-evolve: reliable skills produce richer memory, richer memory informs better planning, and preference internalization continuously realigns the loop to each user. Extensive experiments demonstrate that NanoResearch delivers substantial gains over state-of-the-art AI research systems, and progressively refines itself to produce better research at lower cost over successive cycles.
Abstract（参考訳）: LLMを利用したマルチエージェントシステムは、アイデアから論文執筆までの完全な研究パイプラインを自動化できるようになったが、根本的な疑問が残る。研究者は異なるリソース構成の下で動作し、異なる方法論の好みを持ち、異なる出力フォーマットをターゲットにしている。これらの違いにかかわらず、均一な出力を生成するシステムは、各ユーザに対して体系的に過小評価され、パーソナライゼーションは、研究自動化を真に使用するための前提条件となる。プロジェクト全体にわたる再利用可能な手続き的知識の蓄積、セッション間のユーザ固有のエクスペリエンスの維持、明示的な形式化に抵抗する暗黙的な選好の内在である。我々は,三段階共進化によってこれらのギャップに対処するマルチエージェントフレームワークであるNanoResearchを提案する。技能銀行は、繰り返しの業務をプロジェクト間で再利用可能なコンパクトな手続き規則に蒸留する。メモリモジュールは、各ユーザの研究履歴における計画決定の基礎となる、ユーザとプロジェクト特有のエクスペリエンスを維持します。ラベルフリーポリシー学習は、自由形式のフィードバックをプランナーの永続パラメータ更新に変換し、その後の調整を再構築する。信頼性の高いスキルはよりリッチなメモリを生成し、よりリッチなメモリはより良い計画を通知し、嗜好の内部化は各ユーザのループを継続的に認識する。大規模な実験は、NanoResearchが最先端のAI研究システムよりも大幅に向上し、徐々に洗練されて、連続するサイクルよりも低コストでより良い研究を創出していることを示している。

関連論文リスト

AutoSOTA: An End-to-End Automated Research System for State-of-the-Art AI Model Discovery [49.77172027295716]
AutoSOTAは、トップレベルのAI論文で発表された最新のState-Of-The-Art(SOTA)モデルを進化させるエンドツーエンドの自動研究システムである。報告された方法を超える新しい105種類のSOTAモデルを発見し、平均して1紙あたり平均5時間である。
論文参考訳（メタデータ） (2026-04-07T07:52:01Z)
Improving Coherence and Persistence in Agentic AI for System Optimization [9.443037059325086]
Engramは、反復的にメカニズムを設計、テスト、分析する一連のエージェントを探索する。本研究では,マルチクラウドマルチキャスト推論,LLM要求ルーティング,自然言語クエリを用いたデータベースにおけるKVキャッシュ再利用の最適化など,さまざまな領域において優れた性能を示すことを示す。
論文参考訳（メタデータ） (2026-03-22T17:04:50Z)
REVERE: Reflective Evolving Research Engineer for Scientific Workflows [44.36828076189902]
既存のプロンプト最適化技術は、動作を更新するための局所的な信号に依存しており、多くの場合、タスク全体にわたってパターンが繰り返され、一般化が貧弱になる。我々は,グローバルトレーニングコンテキストから継続的に学習するフレームワークであるReflective Evolving Research Engineer (REVERE)を紹介する。 REVEREは、この反射的最適化フレームワークを通じて、SUPERの4.50%、ResearchCodeBenchの3.51%、ScienceAgentBenchの4.89%で、最先端の専門家による研究コーディングタスクの命令よりもパフォーマンスを向上させる。
論文参考訳（メタデータ） (2026-03-21T05:58:30Z)
SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文参考訳（メタデータ） (2025-11-29T09:18:39Z)
Interpretable by Design: Query-Specific Neural Modules for Explainable Reinforcement Learning [0.3655021726150367]
我々はRLシステムを推論エンジンとして設計し、環境に関する多様な問い合わせに答える。クエリ条件付き決定論的推論ネットワーク(QDIN)は,クエリの種類を第一級市民として扱う統一アーキテクチャである。予測精度は、制御性能が最適以下であってもほぼ完璧なレベルに達する。
論文参考訳（メタデータ） (2025-11-11T20:08:32Z)
Memento No More: Coaching AI Agents to Master Multiple Tasks via Hints Internalization [56.674356045200696]
本稿では,複雑なメモシステムや事前の高品質な実演データを必要としない,複数のタスクに対する知識とスキルを取り入れたAIエージェントの訓練手法を提案する。このアプローチでは,エージェントが新たな経験を収集し,ヒントの形で人間から補正フィードバックを受け取り,このフィードバックを重みに組み込む,反復的なプロセスを採用している。 Llama-3をベースとしたエージェントに実装することで,数ラウンドのフィードバックの後,高度なモデルGPT-4oとDeepSeek-V3をタスクセットで性能向上させる手法の有効性を実証する。
論文参考訳（メタデータ） (2025-02-03T17:45:46Z)
BEACON: A Bayesian Optimization Strategy for Novelty Search in Expensive Black-Box Systems [1.204357447396532]
ノベルティサーチ(NS)は、シミュレーションや実験を通じて多様なシステムの振る舞いを明らかにすることを目指している。 NS法は一般に、入力空間の密度の高いサンプリングを必要とする進化戦略やその他のメタヒューリスティックに依存している。サンプル効率のよいベイズ最適化に基づくNSのアプローチであるBEACONを導入し、入力-行動関係が不透明で、評価にコストがかかるような設定に最適化する。
論文参考訳（メタデータ） (2024-06-05T20:23:52Z)
Towards Automated Design of Riboswitches [38.46798525594529]
新規リボスイッチの発見のための実験的スクリーニングと選択パイプラインは、高価で、時間がかかり、非効率である。本稿では,多様な可変長候補のRNAフォーカスライブラリを提供する新しい方法であるlibLEARNAを提案する。
論文参考訳（メタデータ） (2023-07-17T19:34:59Z)
Multi-Agent Reinforcement Learning for Microprocessor Design Space Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文参考訳（メタデータ） (2022-11-29T17:10:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。