Fugu-MT 論文翻訳(概要): Cost-Aware Diffusion Active Search

論文の概要: Cost-Aware Diffusion Active Search

arxiv url: http://arxiv.org/abs/2602.19538v1
Date: Mon, 23 Feb 2026 06:11:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.696048
Title: Cost-Aware Diffusion Active Search
Title（参考訳）: コスト対応拡散能動探索
Authors: Arundhati Banerjee, Jeff Schneider,
Abstract要約: 関心のある物体を回収するためには、探索空間における先行観測を生かして未知の環境の探索をオフにする必要がある。本研究では,拡散モデルのシーケンスモデリング能力を活用して,探索・探索トレードオフのバランスをとるルックアヘッド動作シーケンスを,網羅的な探索木を構築することなくサンプリングする。提案アルゴリズムは, オフライン強化学習において, 完全回復率で標準ベースラインを上回り, コストを意識した能動意思決定において, 木探索よりも計算効率が高い。
参考スコア（独自算出の注目度）: 8.238352995483533
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Active search for recovering objects of interest through online, adaptive decision making with autonomous agents requires trading off exploration of unknown environments with exploitation of prior observations in the search space. Prior work has proposed information gain and Thompson sampling based myopic, greedy approaches for agents to actively decide query or search locations when the number of targets is unknown. Decision making algorithms in such partially observable environments have also shown that agents capable of lookahead over a finite horizon outperform myopic policies for active search. Unfortunately, lookahead algorithms typically rely on building a computationally expensive search tree that is simulated and updated based on the agent's observations and a model of the environment dynamics. Instead, in this work, we leverage the sequence modeling abilities of diffusion models to sample lookahead action sequences that balance the exploration-exploitation trade-off for active search without building an exhaustive search tree. We identify the optimism bias in prior diffusion based reinforcement learning approaches when applied to the active search setting and propose mitigating solutions for efficient cost-aware decision making with both single and multi-agent teams. Our proposed algorithm outperforms standard baselines in offline reinforcement learning in terms of full recovery rate and is computationally more efficient than tree search in cost-aware active decision making.
Abstract（参考訳）: 自律エージェントによるオンラインの適応的意思決定を通じて関心事の回復を活発に探索するには、探索空間における事前の観測を生かして未知の環境の探索をオフにする必要がある。先行研究では、情報ゲインとトンプソンサンプリングに基づくミオピック(英語版)が提案されており、ターゲットの数が不明な場合、エージェントがクエリや検索の場所を積極的に決定するためのグレーディーなアプローチが提案されている。このような部分観測可能な環境における決定アルゴリズムはまた、有限地平線上を目視できるエージェントが、能動探索のための筋電図ポリシーより優れていることを示した。残念ながら、ルックアヘッドアルゴリズムは通常、エージェントの観察と環境力学のモデルに基づいてシミュレートされ、更新される計算コストの高い探索木を構築することに依存している。そこで本研究では,拡散モデルのシーケンスモデリング能力を活用して,探索・探索トレードオフのバランスを保ちつつ,探索木を構築することなく,探索・探索のトレードオフを解明する。本研究では,事前拡散に基づく強化学習手法における最適化バイアスをアクティブな探索条件に適用し,単一チームとマルチエージェントチームの両方で効率的なコスト認識決定を行うための緩和ソリューションを提案する。提案アルゴリズムは, オフライン強化学習において, 完全回復率で標準ベースラインを上回り, コストを意識した能動意思決定において, 木探索よりも計算効率が高い。

関連論文リスト

AdaSearch: Balancing Parametric Knowledge and Search in Large Language Models via Reinforcement Learning [61.974530499621274]
検索への過度な依存は、ノイズや悪意のあるコンテンツに対する不必要なコストとリスクをもたらす。本稿では,探索を起動するか否かの判断から問題を解き放つ2段階の結果駆動型RLフレームワークを提案する。 AdaSearchは知識境界認識を大幅に改善し、不要な検索コールを削減し、タスクパフォーマンスを強く保ち、透明性と解釈可能な意思決定行動を提供する。
論文参考訳（メタデータ） (2025-12-18T18:50:01Z)
From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文参考訳（メタデータ） (2025-06-23T17:27:19Z)
Decision Tree Induction Through LLMs via Semantically-Aware Evolution [53.0367886783772]
遺伝的プログラミング(GP)に基づく決定木誘導のための進化的最適化手法を提案する。私たちの重要なイノベーションは、セマンティックな事前情報と、検索空間に関するドメイン固有の知識をアルゴリズムに統合することです。これは、構造化された自然言語プロンプトを扱う新しい遺伝子操作子によって操作される。
論文参考訳（メタデータ） (2025-03-18T12:52:03Z)
Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文参考訳（メタデータ） (2024-11-18T16:15:17Z)
Tree Search for Language Model Agents [73.97960454223164]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文参考訳（メタデータ） (2024-07-01T17:07:55Z)
LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。 GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文参考訳（メタデータ） (2024-06-29T05:14:04Z)
Conditionally Optimistic Exploration for Cooperative Deep Multi-Agent Reinforcement Learning [24.05715475457959]
協調型マルチエージェント強化学習(MARL)における効率的な探索の重要性本研究では,逐次的行動計算の考え方に基づく協調探索を効果的に促進する探索手法を提案する。
論文参考訳（メタデータ） (2023-03-16T02:05:16Z)
Cost Aware Asynchronous Multi-Agent Active Search [6.587280549237275]
未知の環境でターゲットを検出するオンライン能動探索アルゴリズムを提案する。我々のアルゴリズムは、トンプソンサンプリング、モンテカルロ木探索、最適信頼境界の原理を組み合わせる。我々は,コストを考慮した能動探索において,アルゴリズムの性能をシミュレーションで解析し,その有効性を示す。
論文参考訳（メタデータ） (2022-10-05T13:38:30Z)
Nonmyopic Multifidelity Active Search [15.689830609697685]
本稿では,多要素能動探索のモデルと,この設定のための新しい,計算効率の良いポリシーを提案する。実世界のデータセット上でのソリューションの性能を評価し,自然ベンチマークよりもはるかに優れた性能を示す。
論文参考訳（メタデータ） (2021-06-11T12:55:51Z)
Inverse Bayesian Optimization: Learning Human Search Strategies in a Sequential Optimization Task [0.10499611180329801]
本稿では,ベイズ最適化の逆問題について考察する。観察された探索経路に基づいてエージェントの潜時獲得関数を推定する。実験から人間の行動を解析し,その方法を説明する。
論文参考訳（メタデータ） (2021-04-16T15:40:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。