Fugu-MT 論文翻訳(概要): The Sandbox Environment for Generalizable Agent Research (SEGAR)

論文の概要: The Sandbox Environment for Generalizable Agent Research (SEGAR)

arxiv url: http://arxiv.org/abs/2203.10351v1
Date: Sat, 19 Mar 2022 16:17:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-22 18:16:51.273136
Title: The Sandbox Environment for Generalizable Agent Research (SEGAR)
Title（参考訳）: 汎用エージェント研究のためのサンドボックス環境
Authors: R Devon Hjelm, Bogdan Mazoure, Florian Golemo, Felipe Frujeri, Mihai Jalobeanu, Andrey Kolobov
Abstract要約: 汎用エージェントリサーチ(SEGAR)のためのサンドボックス環境の構築 SEGARは対話型環境における一般化研究の容易性と説明責任を向上させる。本稿では、SEGARの概要と、SEGARがこれらの目標にどのように貢献するか、および、SEGARが答えられるいくつかの研究課題を実証する実験を紹介する。
参考スコア（独自算出の注目度）: 20.613492690595198
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A broad challenge of research on generalization for sequential decision-making tasks in interactive environments is designing benchmarks that clearly landmark progress. While there has been notable headway, current benchmarks either do not provide suitable exposure nor intuitive control of the underlying factors, are not easy-to-implement, customizable, or extensible, or are computationally expensive to run. We built the Sandbox Environment for Generalizable Agent Research (SEGAR) with all of these things in mind. SEGAR improves the ease and accountability of generalization research in RL, as generalization objectives can be easy designed by specifying task distributions, which in turns allows the researcher to measure the nature of the generalization objective. We present an overview of SEGAR and how it contributes to these goals, as well as experiments that demonstrate a few types of research questions SEGAR can help answer.
Abstract（参考訳）: 対話環境における逐次意思決定タスクの一般化に関する研究の課題は、明らかに進歩を示すベンチマークを設計することである。目立った道のりはあったが、現在のベンチマークでは、適切な露出や根底にある要因の直感的な制御を提供しておらず、簡単に実装でき、カスタマイズ可能で、拡張可能でもなく、計算に費用がかかる。これらすべてを念頭に置いて,汎用エージェントリサーチ(segar)のためのサンドボックス環境を構築しました。 segar は rl における一般化研究の容易さと説明可能性を改善し、一般化の目的をタスク分布を特定することで容易に設計できるため、一般化の目的の性質を測定することができる。本稿では、SEGARの概要と、SEGARがこれらの目標にどのように貢献するか、およびSEGARが答えられるいくつかの研究課題を示す実験を紹介する。

関連論文リスト

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing? [61.247730037229815]
BeyondSWEは2つの軸 – 解像度スコープと知識スコープ – に沿って既存の評価を拡張する包括的なベンチマークです。外部知識の役割を解明するために,ディープ検索とコーディング能力を統合するフレームワークであるSearchSWEを開発した。この作業は、現実的で挑戦的な評価ベンチマークと、より有能なコードエージェントに向けた研究を進めるための柔軟なフレームワークの両方を提供する。
論文参考訳（メタデータ） (2026-03-03T17:52:01Z)
GISA: A Benchmark for General Information-Seeking Assistant [102.30831921333755]
GISAは汎用情報検索アシスタントのベンチマークであり、373の人為的なクエリで構成されている。深い推論と広範囲な情報集約を統合タスクに統合し、暗記に抵抗するために定期的に更新された回答を含むライブサブセットを含む。主要なLCMと商用検索製品の実験では、最高のパフォーマンスモデルでさえ19.30%の正確なマッチスコアしか達成していないことが示されている。
論文参考訳（メタデータ） (2026-02-09T11:44:15Z)
DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents [10.197402632091551]
DeepSearchQAは、難しい多段階情報検索タスクのエージェントを評価する900プロンプトのベンチマークである。このデータセットは、エージェントが複雑な検索計画を実行し、完全な回答リストを生成する能力を評価するように設計されている。
論文参考訳（メタデータ） (2026-01-28T19:20:47Z)
RE-Searcher: Robust Agentic Search with Goal-oriented Planning and Self-reflection [55.125987985864896]
環境の複雑さが脆弱な探索行動をいかに引き起こすかを定量的に分析する。本稿では,検索エージェントRE-Searcherのインスタンス化をシンプルかつ効果的に行う手法を提案する。この目標指向計画と自己回帰の組み合わせにより、RE-Searcherは複雑な検索環境における急激な手がかりに抵抗することができる。
論文参考訳（メタデータ） (2025-09-30T10:25:27Z)
Task Priors: Enhancing Model Evaluation by Considering the Entire Space of Downstream Tasks [13.412573082645096]
このような厳格な評価プロトコルは、AI研究においてサイレントボトルネックを生み出している、と我々は主張する。このビューでは、すべてのダウンストリームタスクのセットに対してモデルのパフォーマンスを評価することができる。
論文参考訳（メタデータ） (2025-07-14T02:53:14Z)
Efficient and Generalizable Environmental Understanding for Visual Navigation [14.10058573339022]
ビジュアルナビゲーションは、エージェントが与えられた目的に向かって複雑な環境をナビゲートできるようにする、Embodied AIの中核的なタスクである。エージェントの環境理解能力を高めるために因果理解モジュールを組み込んだ因果認識ナビゲーション(CAN)を提案する。
論文参考訳（メタデータ） (2025-06-18T11:47:02Z)
Vision Generalist Model: A Survey [87.49797517847132]
本稿では、ビジョンジェネラリストモデルの概要を概観し、その分野におけるその特性と能力について考察する。関連ドメインへの簡単な探索を行い、相互接続と潜在的なシナジーに光を当てます。
論文参考訳（メタデータ） (2025-06-11T17:23:41Z)
DISCOVER: Automated Curricula for Sparse-Reward Reinforcement Learning [33.66640909392995]
複雑で高次元的なタスクを解くには、目的のタスクに関連するより単純なタスクを解く必要があると論じる。目的タスクの方向の探索目標を選択するための,方向指示スパース逆目標条件付き超長距離RL(DISCOVER)を提案する。
論文参考訳（メタデータ） (2025-05-26T11:35:07Z)
Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering [87.76784654371312]
Embodied Question Answeringでは、エージェントが動的に3D環境を探索し、視覚情報を積極的に収集し、質問に答えるために多段階の推論を行う必要がある。既存のデータセットはしばしばバイアスや事前の知識を導入し、非身体的推論につながる。探索能力と推論能力の両方を評価するために特別に設計された最大のデータセットを構築します。
論文参考訳（メタデータ） (2025-03-14T06:29:47Z)
On Generalization Across Environments In Multi-Objective Reinforcement Learning [6.686583184622338]
我々は,多目的強化学習(MORL)における一般化の概念を定式化し,その評価方法について述べる。パラメータ化された環境構成を持つ多目的ドメインを特徴とする新しいベンチマークを提案。このベンチマークにおける最先端のMORLアルゴリズムのベースライン評価は、限定的な一般化能力を示し、改善の余地があることを示唆している。
論文参考訳（メタデータ） (2025-03-02T08:50:14Z)
Divide-and-Conquer: Tree-structured Strategy with Answer Distribution Estimator for Goal-Oriented Visual Dialogue [30.126882554391837]
Answer Distribution Estimator(TSADE)を用いた樹木構造戦略本稿では,現在の候補オブジェクトの半数を各ラウンドで除外することで,質問生成をガイドする木構造戦略(TSADE)を提案する。提案手法は,従来のエルゴディックな質問生成手法と比較して,繰り返し質問やラウンドの少ないタスク指向の精度をエージェントが達成できることを実験的に実証する。
論文参考訳（メタデータ） (2025-02-09T08:16:09Z)
DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents [49.74065769505137]
本研究では,新しい科学的発見の完全なサイクルを実行するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるDiscoVERYWORLDを紹介する。 8つのトピックにまたがる120の異なる課題タスクが含まれており、3レベルの難易度といくつかのパラメトリックなバリエーションがある。従来の環境においてよく機能する強力なベースラインエージェントが、ほとんどのdiscoVERYWORLDタスクに苦労していることがわかった。
論文参考訳（メタデータ） (2024-06-10T20:08:44Z)
A Minimalist Prompt for Zero-Shot Policy Learning [61.65128628634916]
トランスフォーマーに基づく手法は、推論中にターゲットドメインのデモや例解を誘導するときに、かなりの一般化能力を示す。本稿では,タスクパラメータのみに決定変換器を条件付けすることで,実演条件と同等以上のゼロショット一般化を実現できることを示す。我々は、ロボット制御、操作、ナビゲーションベンチマークタスクの範囲で、ゼロショットの一般化をさらに促進するために、さらに学習可能なプロンプトを導入する。
論文参考訳（メタデータ） (2024-05-09T19:15:33Z)
Object Detectors in the Open Environment: Challenges, Solutions, and Outlook [95.3317059617271]
オープン環境のダイナミックで複雑な性質は、オブジェクト検出器に新しくて恐ろしい挑戦をもたらす。本稿では,オープン環境におけるオブジェクト検出器の総合的なレビューと解析を行う。データ/ターゲットの変化の次元に基づいて、4つの四分法(ドメイン外、カテゴリ外、堅牢な学習、漸進的な学習)を含むフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-24T19:32:39Z)
The Shifted and The Overlooked: A Task-oriented Investigation of User-GPT Interactions [114.67699010359637]
実際のユーザクエリの大規模なコレクションをGPTに解析する。ユーザインタラクションでは'設計'や'計画'といったタスクが一般的だが,従来のNLPベンチマークとは大きく異なる。
論文参考訳（メタデータ） (2023-10-19T02:12:17Z)
Discrete Factorial Representations as an Abstraction for Goal Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文参考訳（メタデータ） (2022-11-01T03:31:43Z)
Generalizing to New Tasks via One-Shot Compositional Subgoals [23.15624959305799]
以前は見つからなかったタスクをほとんど、あるいはまったく監督せずに一般化する能力は、現代の機械学習研究において重要な課題である。適応型「近未来」サブゴールを用いて、模倣学習エージェントを訓練することにより、これらの問題に対処しようとするCASEを導入する。実験の結果,提案手法は従来よりも30%向上していることがわかった。
論文参考訳（メタデータ） (2022-05-16T14:30:11Z)
Open-Ended Learning Leads to Generally Capable Agents [12.079718607356178]
環境領域内のタスクの宇宙を定義し、この広大な空間をまたいだエージェントを訓練する能力を示す。結果として生じる空間は、エージェントがもたらす課題に関して非常に多様であり、エージェントの学習の進捗を測定することさえも、オープンな研究課題である。オープンエンド学習プロセスの構築により,エージェントが学習を止めないようなトレーニングタスク分布や訓練目標を動的に変化させることで,新しい行動の一貫性のある学習が可能になることを示す。
論文参考訳（メタデータ） (2021-07-27T13:30:07Z)
CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。タスクは、ブロックのセットから3D形状を構築することで構成される。
論文参考訳（メタデータ） (2020-10-08T23:01:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。