論文の概要: Ground-Compose-Reinforce: Tasking Reinforcement Learning Agents through Formal Language
- arxiv url: http://arxiv.org/abs/2507.10741v1
- Date: Mon, 14 Jul 2025 19:05:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.853079
- Title: Ground-Compose-Reinforce: Tasking Reinforcement Learning Agents through Formal Language
- Title(参考訳): グランドコンパス強化:フォーマル言語によるタスク強化学習エージェント
- Authors: Andrew C. Li, Toryn Q. Klassen, Andrew Wang, Parand A. Alamdari, Sheila A. McIlraith,
- Abstract要約: 複雑な知覚における接地言語(例えばピクセル)と行動は、言語を介して人間と対話できる位置にあるエージェントを構築する際に重要な課題である。
データから形式言語をグラウンド化するためのニューロシンボリックなフレームワークであるGround-Compose-Reinforceを提案する。
データ駆動学習により、我々のフレームワークは報酬関数やシンボル検出器といったドメイン固有の要素の手動設計を避けます。
- 参考スコア(独自算出の注目度): 13.650397934062859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grounding language in complex perception (e.g. pixels) and action is a key challenge when building situated agents that can interact with humans via language. In past works, this is often solved via manual design of the language grounding or by curating massive datasets relating language to elements of the environment. We propose Ground-Compose-Reinforce, a neurosymbolic framework for grounding formal language from data, and eliciting behaviours by directly tasking RL agents through this language. By virtue of data-driven learning, our framework avoids the manual design of domain-specific elements like reward functions or symbol detectors. By virtue of compositional formal language semantics, our framework achieves data-efficient grounding and generalization to arbitrary language compositions. Experiments on an image-based gridworld and a MuJoCo robotics domain show that our approach reliably maps formal language instructions to behaviours with limited data while end-to-end, data-driven approaches fail.
- Abstract(参考訳): 複雑な知覚における接地言語(例えばピクセル)と行動は、言語を介して人間と対話できる位置にあるエージェントを構築する上で重要な課題である。
過去の研究では、これは言語基盤のマニュアル設計や、言語に関連する大量のデータセットを環境要素にキュレートすることで解決されることが多かった。
本研究では,形式言語をデータから基礎づけるニューロシンボリック・フレームワークであるGround-Compose-Reinforceを提案する。
データ駆動学習により、我々のフレームワークは報酬関数やシンボル検出器といったドメイン固有の要素の手動設計を避けます。
構成形式言語セマンティクスにより,任意の言語構成に対して,データ効率のよい基礎化と一般化を実現している。
画像ベースのグリッドワールドとMuJoCoロボティクス領域の実験により、私たちのアプローチは、形式言語命令を限られたデータを持つ振る舞いに確実にマッピングする一方で、エンドツーエンドのデータ駆動アプローチは失敗することを示した。
関連論文リスト
- Symbolic Learning Enables Self-Evolving Agents [55.625275970720374]
エージェントシンボリックラーニング(エージェントシンボリックラーニング)(エージェントシンボリックラーニング)は、言語エージェントが自分自身で最適化できるための体系的なフレームワークである。
エージェント記号学習は、コネクショナリズム学習における2つの基本的なアルゴリズムを模倣することにより、言語エージェント内のシンボルネットワークを最適化するように設計されている。
我々は、標準ベンチマークと複雑な実世界のタスクの両方で概念実証実験を行う。
論文 参考訳(メタデータ) (2024-06-26T17:59:18Z) - Goal Representations for Instruction Following: A Semi-Supervised
Language Interface to Control [58.06223121654735]
本稿では,少数の言語データのみを用いて,共同画像と目標条件のポリシーを言語と併用する手法を提案する。
本手法は,言語を目標画像と一致させないラベル付きデータから埋め込みを学習することにより,実世界のロバストな性能を実現する。
ラベル付きデータの外部の言語命令に一般化して,様々な操作タスクをさまざまな場面で追従する命令を示す。
論文 参考訳(メタデータ) (2023-06-30T20:09:39Z) - Simple Embodied Language Learning as a Byproduct of Meta-Reinforcement
Learning [56.07190845063208]
具体的強化学習(RL)エージェントは、非言語タスクから間接的に言語を学習できるか?
エージェントが特定のオフィスを見つけることを目標とするオフィスナビゲーション環境を設計し、異なる建物(タスク)でオフィスロケーションが異なる。
我々は、RLエージェントが言語を間接的に学習できることを発見した。現在のメタRLアルゴリズムで訓練されたエージェントは、ホールドアウトレイアウトと言語フレーズでフロアプランを読むことに成功している。
論文 参考訳(メタデータ) (2023-06-14T09:48:48Z) - Differentiable Parsing and Visual Grounding of Verbal Instructions for
Object Placement [26.74189486483276]
言語条件のオブジェクト配置のためのPARsing and visual GrOuNdingフレームワークであるParaGonを紹介する。
言語命令をオブジェクト間の関係に解析し、それらのオブジェクトを視覚的なシーンでグラウンド化する。
ParaGonは、これらの手順をすべてニューラルネットワークにエンコードして、エンドツーエンドのトレーニングを行う。
論文 参考訳(メタデータ) (2022-10-01T07:36:51Z) - Compositional Generalization in Grounded Language Learning via Induced
Model Sparsity [81.38804205212425]
グリッド環境における単純な言語条件のナビゲーション問題について考察する。
本研究では,オブジェクトの指示文と属性のスパース相関を助長するエージェントを設計し,それらを組み合わせて目的を導出する。
我々のエージェントは、少数のデモンストレーションから学習した場合でも、新しいプロパティの組み合わせを含む目標に対して高いレベルのパフォーマンスを維持している。
論文 参考訳(メタデータ) (2022-07-06T08:46:27Z) - Sim-To-Real Transfer of Visual Grounding for Human-Aided Ambiguity
Resolution [0.0]
視覚的接地という課題について考察し, エージェントは, 混み合ったシーンからオブジェクトを抽出し, 自然言語で記述する。
視覚的接地に対する現代の全体論的アプローチは、言語構造を無視し、ジェネリックドメインをカバーするのに苦労する。
実体,属性,空間関係の合成視覚的グラウンド化のための,完全に分離されたモジュラー・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-24T14:12:32Z) - Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [119.29555551279155]
大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。
このような知識は、自然言語で表現された高レベルで時間的に拡張された命令を動作させようとするロボットにとって極めて有用である。
低レベルのスキルを大規模言語モデルと組み合わせることで,言語モデルが複雑かつ時間的に拡張された命令を実行する手順について高いレベルの知識を提供することを示す。
論文 参考訳(メタデータ) (2022-04-04T17:57:11Z) - Language in a (Search) Box: Grounding Language Learning in Real-World
Human-Machine Interaction [4.137464623395377]
ユーザデータのみから、接地領域、表記関数、合成関数がどのように学習されるかを示す。
合成性およびゼロショット推論タスクに関する基礎的セマンティクスをベンチマークする。
論文 参考訳(メタデータ) (2021-04-18T15:03:16Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。