Fugu-MT 論文翻訳(概要): Learning Generative Models with Goal-conditioned Reinforcement Learning

論文の概要: Learning Generative Models with Goal-conditioned Reinforcement Learning

arxiv url: http://arxiv.org/abs/2303.14811v1
Date: Sun, 26 Mar 2023 20:33:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-28 17:33:30.358413
Title: Learning Generative Models with Goal-conditioned Reinforcement Learning
Title（参考訳）: ゴール条件強化学習を用いた生成モデル学習
Authors: Mariana Vargas Vieyra, Pierre M\'enard
Abstract要約: 目標条件付き強化学習を用いた生成モデル学習のための新しいフレームワークを提案する。画像合成のタスクにおいて,本手法が多種多様な高品質なサンプルを生成可能であることを実証的に実証した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a novel, alternative framework for learning generative models with goal-conditioned reinforcement learning. We define two agents, a goal conditioned agent (GC-agent) and a supervised agent (S-agent). Given a user-input initial state, the GC-agent learns to reconstruct the training set. In this context, elements in the training set are the goals. During training, the S-agent learns to imitate the GC-agent while remaining agnostic of the goals. At inference we generate new samples with the S-agent. Following a similar route as in variational auto-encoders, we derive an upper bound on the negative log-likelihood that consists of a reconstruction term and a divergence between the GC-agent policy and the (goal-agnostic) S-agent policy. We empirically demonstrate that our method is able to generate diverse and high quality samples in the task of image synthesis.
Abstract（参考訳）: 目標条件付き強化学習を用いた生成モデル学習のための,新しい代替フレームワークを提案する。目標条件付きエージェント(GCエージェント)と監視エージェント(Sエージェント)の2つのエージェントを定義した。ユーザ入力の初期状態が与えられると、gcエージェントはトレーニングセットの再構築を学習する。この文脈では、トレーニングセットの要素は目標です。訓練中、Sエージェントは目標を知らないままGCエージェントを模倣することを学ぶ。 S-エージェントで新しいサンプルを生成する。変分オートエンコーダと同様に、再構成項とgcエージェントポリシーと(goal非依存)sエージェントポリシーの相違からなる負のログライク性の上界を導出する。本手法は画像合成のタスクにおいて多様で高品質なサンプルを生成できることを実証的に証明する。

関連論文リスト

AgentRefine: Enhancing Agent Generalization through Refinement Tuning [28.24897427451803]
LLM(Large Language Model)ベースのエージェントは、人間のような複雑なタスクを実行する能力を示した。オープンソースLLMとGPTシリーズのような商用モデルの間にはまだ大きなギャップがある。本稿では,命令チューニングによるLLMのエージェント一般化機能の改善に焦点をあてる。
論文参考訳（メタデータ） (2025-01-03T08:55:19Z)
Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。 55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文参考訳（メタデータ） (2024-10-14T17:57:02Z)
Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [117.94654815220404]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。 G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文参考訳（メタデータ） (2024-10-06T10:49:40Z)
Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。 AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文参考訳（メタデータ） (2024-06-18T17:32:48Z)
Aligning Agents like Large Language Models [8.873319874424167]
高次元感覚情報から複雑な3D環境下での行動訓練は困難である。我々は、模倣学習エージェントの望ましくない振る舞いと、不整合大言語モデル(LLM)の不整合応答の類似性を描く。トレーニングエージェントにこのアプローチをうまく適用するための洞察とアドバイスを提供しながら、希望するモードを一貫して実行できるようにエージェントを調整できることを実証する。
論文参考訳（メタデータ） (2024-06-06T16:05:45Z)
AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文参考訳（メタデータ） (2024-06-06T15:15:41Z)
Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models [56.00992369295851]
オープンソースのLarge Language Models(LLM)は、さまざまなNLPタスクで大きな成功を収めていますが、エージェントとして振る舞う場合、それでもAPIベースのモデルよりもはるかに劣っています。本稿では,(1) エージェント学習コーパスを,(1) エージェント学習データの分布から大きくシフトするエージェント推論と,(2) エージェントタスクが必要とする能力に異なる学習速度を示すエージェント学習コーパスと,(3) 幻覚を導入することでエージェント能力を改善する際の副作用について述べる。本稿では,エージェントのためのFLANモデルを効果的に構築するためのエージェントFLANを提案する。
論文参考訳（メタデータ） (2024-03-19T16:26:10Z)
CCA: Collaborative Competitive Agents for Image Editing [59.54347952062684]
本稿では,CCA(Collaborative Competitive Agents)の新たな生成モデルを提案する。複数のLarge Language Models (LLM) ベースのエージェントを使って複雑なタスクを実行する。この論文の主な貢献は、制御可能な中間ステップと反復最適化を備えたマルチエージェントベースの生成モデルの導入である。
論文参考訳（メタデータ） (2024-01-23T11:46:28Z)
ProAgent: Building Proactive Cooperative Agents with Large Language Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。 ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。 ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文参考訳（メタデータ） (2023-08-22T10:36:56Z)
A Framework for Understanding and Visualizing Strategies of RL Agents [0.0]
本稿では,時間論理式を用いてエージェント戦略を特徴付ける逐次決定タスクの理解可能なモデル学習フレームワークを提案する。我々は,手工芸の専門家政策と訓練された強化学習エージェントの痕跡を用いて,StarCraft II (SC2) の戦闘シナリオに関する枠組みを評価した。
論文参考訳（メタデータ） (2022-08-17T21:58:19Z)
BGC: Multi-Agent Group Belief with Graph Clustering [1.9949730506194252]
エージェントがコミュニケーションなしで情報を交換できる半通信方式を提案する。近接するエージェントを小さなグループに分割し,グループ内のエージェントの信念を最小化するグループベースのモジュールを提案する。その結果,提案手法はSMACベンチマークの大幅な改善を実現していることがわかった。
論文参考訳（メタデータ） (2020-08-20T07:07:20Z)
Learning to Model Opponent Learning [11.61673411387596]
マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)は、一組の共存エージェントが相互とその環境と相互作用する設定を考える。これは、通常、収束が定常環境の仮定に依存する値関数ベースのアルゴリズムにとって大きな課題となる。我々は、モデルポンポント学習(LeMOL)と呼ばれる、対戦者の学習力学をモデル化するための新しいアプローチを開発する。
論文参考訳（メタデータ） (2020-06-06T17:19:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。