Fugu-MT 論文翻訳(概要): Performance of AI agents based on reasoning language models on ALD process optimization tasks

論文の概要: Performance of AI agents based on reasoning language models on ALD process optimization tasks

arxiv url: http://arxiv.org/abs/2601.09980v1
Date: Thu, 15 Jan 2026 01:46:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-16 19:43:18.94274
Title: Performance of AI agents based on reasoning language models on ALD process optimization tasks
Title（参考訳）: ALDプロセス最適化タスクにおける推論言語モデルに基づくAIエージェントの性能評価
Authors: Angel Yanguas-Gil,
Abstract要約: 我々は、原子層堆積(ALD)プロセスを自律的に最適化するために、大規模言語モデルを推論する性能と振舞いについて検討する。 ALDプロセス最適化タスクでは、ALD前駆体と中和剤に最適な線量時間を求める必要がある。本研究では、ALDプロセスに異なる自己制限表面反応経路と非自己制限成分を組み込んだALDツールの簡単なモデルを用いて評価する。
参考スコア（独自算出の注目度）: 0.013537117504260622
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work we explore the performance and behavior of reasoning large language models to autonomously optimize atomic layer deposition (ALD) processes. In the ALD process optimization task, an agent built on top of a reasoning LLM has to find optimal dose times for an ALD precursor and a coreactant without any prior knowledge on the process, including whether it is actually self-limited. The agent is meant to interact iteratively with an ALD reactor in a fully unsupervised way. We evaluate this agent using a simple model of an ALD tool that incorporates ALD processes with different self-limited surface reaction pathways as well as a non self-limited component. Our results show that agents based on reasoning models like OpenAI's o3 and GPT5 consistently succeeded at completing this optimization task. However, we observed significant run-to-run variability due to the non deterministic nature of the model's response. In order to understand the logic followed by the reasoning model, the agent uses a two step process in which the model first generates an open response detailing the reasoning process. This response is then transformed into a structured output. An analysis of these reasoning traces showed that the logic of the model was sound and that its reasoning was based on the notions of self-limited process and saturation expected in the case of ALD. However, the agent can sometimes be misled by its own prior choices when exploring the optimization space.
Abstract（参考訳）: 本研究では、原子層堆積(ALD)プロセスを自律的に最適化するために、大規模言語モデルを推論する性能と振舞いについて検討する。 ALDプロセス最適化タスクでは、LDMの上に構築されたエージェントは、ALD前駆体とコアクタントに対して、実際に自己制限されているかどうかを含むプロセスに関する事前知識のない最適な線量時間を見つける必要がある。エージェントは、完全に教師されていない方法でALDリアクターと反復的に相互作用することを意図している。本研究では、ALDプロセスに異なる自己制限表面反応経路と非自己制限成分を組み込んだALDツールの簡単なモデルを用いて評価する。その結果,OpenAIのo3やGPT5のような推論モデルに基づくエージェントは,この最適化作業の完了に一貫して成功していることがわかった。しかし, モデル応答の非決定論的性質により, ラン・ツー・ランの変動が顕著であった。推論モデルに続く論理を理解するために、エージェントは2段階のプロセスを使用し、モデルがまず推論プロセスの詳細を詳述したオープンレスポンスを生成する。この応答は、構造化された出力に変換される。これらの推論トレースを解析したところ、モデルの論理は健全であり、その推論は自己制限プロセスの概念とALDの場合に期待される飽和に基づいていた。しかし、最適化空間を探索する際、エージェントはそれ自身の選択によって誤解されることがある。

関連論文リスト

AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent [57.10083973844841]
AgentArkは、マルチエージェントダイナミクスを単一のモデルの重みに蒸留する新しいフレームワークである。各種モデル,タスク,スケーリング,シナリオの3つの階層的蒸留戦略について検討する。シミュレーションからトレーニングへ計算の負担をシフトさせることで、蒸留されたモデルは、複数のエージェントの強い推論と自己補正性能を示しながら、一つのエージェントの効率を保ちます。
論文参考訳（メタデータ） (2026-02-03T19:18:28Z)
ROAD: Reflective Optimization via Automated Debugging for Zero-Shot Agent Alignment [1.6968020497268546]
ROADは、最適化を検索ではなく動的デバッグ調査として扱う新しいフレームワークである。道路はサンプリング効率が高く、成功率は5.6%、検索精度は3.8%向上している。これらの結果は、ヒューマンエンジニアリングの失敗分析とパッチングのループを模倣することで、リソース集約的なトレーニングに代わる、実行可能なデータ効率の代替が可能になることを示唆している。
論文参考訳（メタデータ） (2025-12-30T07:31:34Z)
Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。 BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文参考訳（メタデータ） (2025-12-20T12:06:13Z)
Beyond Fast and Slow: Cognitive-Inspired Elastic Reasoning for Large Language Models [39.03483371038282]
CogERは、人間の階層的推論にインスパイアされたフレームワークである。外部ツールを必要とするクエリに対して、Cognitive Tool-Assisted Reasoningを導入する。 CogERは最先端のTest-Timeスケーリングメソッドより優れています。
論文参考訳（メタデータ） (2025-12-17T05:11:58Z)
AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。 AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文参考訳（メタデータ） (2025-11-11T14:57:54Z)
SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文参考訳（メタデータ） (2025-09-08T02:07:09Z)
SSPO: Self-traced Step-wise Preference Optimization for Process Supervision and Reasoning Compression [15.87106741558898]
後学習法は補助的なモデルや過度な考えのためにかなりの計算オーバーヘッドを発生させる。本稿では,プラグインRLgableプロセス監視フレームワークであるSSPO(Self-traced Step-wise Preference Optimization)を提案する。 SSPOは、モデル自身が生成したステップワイズ優先信号を使用して、圧縮を推論するための最適化プロセスを導出する。
論文参考訳（メタデータ） (2025-08-18T04:02:15Z)
Lucy: edgerunning agentic web search on mobile with machine generated task vectors [0.20249250133493193]
小言語モデル(SLM)は、その制約された能力のため、本質的に知識集約的なタスクに限られている。本稿では,モデルの内部推論を動的タスクベクトルマシンとして,思考と思考のタグで見る,という新しいパラダイムを提案する。このことは、構造化された自己構築されたタスク推論を備えた場合、小さなモデルが大きなモデルと競合できることを示している。
論文参考訳（メタデータ） (2025-08-01T06:45:29Z)
DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文参考訳（メタデータ） (2025-03-18T14:02:59Z)
Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [112.04307762405669]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。 G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文参考訳（メタデータ） (2024-10-06T10:49:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。