Fugu-MT 論文翻訳(概要): ARCLE: The Abstraction and Reasoning Corpus Learning Environment for Reinforcement Learning

論文の概要: ARCLE: The Abstraction and Reasoning Corpus Learning Environment for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2407.20806v1
Date: Tue, 30 Jul 2024 13:11:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-31 17:10:01.073626
Title: ARCLE: The Abstraction and Reasoning Corpus Learning Environment for Reinforcement Learning
Title（参考訳）: ARCLE:強化学習のためのコーパス学習環境の抽象化と推論
Authors: Hosung Lee, Sejin Kim, Seungpil Lee, Sanha Hwang, Jihwan Lee, Byung-Jun Lee, Sundong Kim,
Abstract要約: ARCLEは、帰納的推論ベンチマークに関する強化学習研究を促進するために設計された環境である。我々は、近ポリシー最適化エージェントがARCLEを通して個別のタスクを学習できることを実証する。我々は、MAML、GFlowNets、World Modelsなど、ARCLEを使用するためのいくつかの研究の方向性とモチベーションを提案する。
参考スコア（独自算出の注目度）: 9.134178145285693
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces ARCLE, an environment designed to facilitate reinforcement learning research on the Abstraction and Reasoning Corpus (ARC). Addressing this inductive reasoning benchmark with reinforcement learning presents these challenges: a vast action space, a hard-to-reach goal, and a variety of tasks. We demonstrate that an agent with proximal policy optimization can learn individual tasks through ARCLE. The adoption of non-factorial policies and auxiliary losses led to performance enhancements, effectively mitigating issues associated with action spaces and goal attainment. Based on these insights, we propose several research directions and motivations for using ARCLE, including MAML, GFlowNets, and World Models.
Abstract（参考訳）: 本稿では,ARC(Abstraction and Reasoning Corpus)の強化学習を支援する環境であるARCLEを紹介する。強化学習によるこの帰納的推論ベンチマークに対処することで、巨大なアクションスペース、難解な目標、さまざまなタスクといった課題が浮かび上がっています。我々は、近ポリシー最適化エージェントがARCLEを通して個別のタスクを学習できることを実証する。非生産的政策の導入と補助的な損失はパフォーマンスの向上につながり、アクションスペースや目標達成に関わる問題を効果的に軽減した。これらの知見に基づいて,MAML,GFlowNets,World Modelsなど,ARCLEを使用するためのいくつかの研究方向とモチベーションを提案する。

関連論文リスト

CAREL: Instruction-guided reinforcement learning with cross-modal auxiliary objectives [2.4392539322920763]
言語指導による目標達成型強化学習の課題を解決するための重要なステップである。本稿では,ビデオテキスト検索文にヒントを得た補助的損失関数を用いた新たなフレームワークとしてCARELを提案する。実験の結果,マルチモーダル強化学習問題において,本フレームワークのより優れたサンプル効率と系統的な一般化が示唆された。
論文参考訳（メタデータ） (2024-11-29T15:49:06Z)
Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文参考訳（メタデータ） (2024-11-18T16:15:17Z)
EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文参考訳（メタデータ） (2024-10-08T17:54:03Z)
From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。 CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文参考訳（メタデータ） (2024-09-19T02:51:54Z)
Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文参考訳（メタデータ） (2024-08-17T11:49:53Z)
LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文参考訳（メタデータ） (2024-04-01T16:50:54Z)
The Efficiency Spectrum of Large Language Models: An Algorithmic Survey [54.19942426544731]
LLM(Large Language Models)の急速な成長は、様々なドメインを変換する原動力となっている。本稿では,LLMのエンドツーエンドのアルゴリズム開発に不可欠な多面的効率性について検討する。
論文参考訳（メタデータ） (2023-12-01T16:00:25Z)
LLMs Learn Task Heuristics from Demonstrations: A Heuristic-Driven Prompting Strategy for Document-Level Event Argument Extraction [12.673710691468264]
本稿では,Huristic-Driven Link-of-Alogy (HD-LoA)を導入し,サンプル選択の課題に対処する。人間の類推的推論にインスパイアされ,LLMが新たな状況に対処できるリンク・オブ・アナロジー・プロンプトを提案する。実験により,本手法は文書レベルのAEデータセット上で,既存のプロンプト手法や数発の教師付き学習手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-11-11T12:05:01Z)
Option-Aware Adversarial Inverse Reinforcement Learning for Robotic Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。逆逆強化学習に基づく新しいHILアルゴリズムを開発した。また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-05T00:28:26Z)
Human AI interaction loop training: New approach for interactive reinforcement learning [0.0]
機械学習の様々な意思決定タスクにおける強化学習(RL)は、スタンドアロンの報酬関数から学習するエージェントによる効果的な結果を提供する。 RLは、多くの環境状態と行動空間、および報酬の決定に固有の課題を提示する。イミテーションラーニング(IL)は、教師を使った課題に対して有望な解決策を提供する。
論文参考訳（メタデータ） (2020-03-09T15:27:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。