論文の概要: Human-like compositional learning of visually-grounded concepts using synthetic environments
- arxiv url: http://arxiv.org/abs/2504.06618v1
- Date: Wed, 09 Apr 2025 06:33:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:06:27.172050
- Title: Human-like compositional learning of visually-grounded concepts using synthetic environments
- Title(参考訳): 人工環境を用いた視覚的概念の人間的構成学習
- Authors: Zijun Lin, M Ganesh Kumar, Cheston Tan,
- Abstract要約: 本研究では,人間が試行錯誤によって概念クラスや接地的視覚的手がかりを構成することを学ぶ方法について検討する。
我々は,エージェントが自然言語の指示によって指定されたターゲットに移動するために,強化によって学習する3D合成環境を設計する。
強化学習エージェントは、決定者の概念を視覚的目標に根ざすことができるが、より複雑な前置詞概念に苦慮していることを示す。
- 参考スコア(独自算出の注目度): 6.461018127662044
- License:
- Abstract: The compositional structure of language enables humans to decompose complex phrases and map them to novel visual concepts, showcasing flexible intelligence. While several algorithms exhibit compositionality, they fail to elucidate how humans learn to compose concept classes and ground visual cues through trial and error. To investigate this multi-modal learning challenge, we designed a 3D synthetic environment in which an agent learns, via reinforcement, to navigate to a target specified by a natural language instruction. These instructions comprise nouns, attributes, and critically, determiners, prepositions, or both. The vast array of word combinations heightens the compositional complexity of the visual grounding task, as navigating to a blue cube above red spheres is not rewarded when the instruction specifies navigating to "some blue cubes below the red sphere". We first demonstrate that reinforcement learning agents can ground determiner concepts to visual targets but struggle with more complex prepositional concepts. Second, we show that curriculum learning, a strategy humans employ, enhances concept learning efficiency, reducing the required training episodes by 15% in determiner environments and enabling agents to easily learn prepositional concepts. Finally, we establish that agents trained on determiner or prepositional concepts can decompose held-out test instructions and rapidly adapt their navigation policies to unseen visual object combinations. Leveraging synthetic environments, our findings demonstrate that multi-modal reinforcement learning agents can achieve compositional understanding of complex concept classes and highlight the efficacy of human-like learning strategies in improving artificial systems' learning efficiency.
- Abstract(参考訳): 言語の構成構造により、複雑なフレーズを分解し、それらを新しい視覚概念にマッピングし、柔軟な知性を示すことができる。
いくつかのアルゴリズムは構成性を示すが、人間がどのようにして概念クラスを構築し、試行錯誤によって地上視覚的手がかりを構築するかを理解できない。
このマルチモーダル学習の課題を解明するために,エージェントが強化によって学習する3D合成環境を設計し,自然言語の指示によって指定されたターゲットにナビゲートする。
これらの命令は名詞、属性、および批判的に、決定子、前置詞、またはその両方から構成される。
赤い球面上の青い立方体へのナビゲートは、命令が「赤い球面の下にあるいくつかの青い立方体」へのナビゲートを指定すると、報われない。
まず、強化学習エージェントは、決定的概念を視覚的目標に基礎付けることができるが、より複雑な前置詞概念に苦しむことを実証する。
第2に,人間が採用する戦略であるカリキュラム学習は,概念学習の効率を向上し,決定的環境において必要なトレーニングエピソードを15%削減し,エージェントが前提概念を簡単に学習できるようにする。
最後に,決定子や前提概念に基づいて訓練されたエージェントが,保持されたテスト命令を分解し,そのナビゲーションポリシーを視覚オブジェクトの組み合わせに迅速に適応させることができることを確かめる。
本研究は, 合成環境を活用することで, 多モード強化学習エージェントが複雑な概念クラスの構成的理解を実現し, 人工システムの学習効率を向上させるための人間的な学習戦略の有効性を強調した。
関連論文リスト
- From Concrete to Abstract: A Multimodal Generative Approach to Abstract Concept Learning [3.645603633040378]
本稿では,高次抽象概念学習におけるマルチモーダル生成手法を提案する。
我々のモデルは、まず下層コンクリート概念を基礎として、それらを結合して基本レベル概念を形成し、最後にレベル概念を重畳するために抽象化する。
高階抽象概念を用いた言語対視覚および視覚対言語テストによるモデル言語学習能力の評価を行った。
論文 参考訳(メタデータ) (2024-10-03T10:24:24Z) - Embodied Concept Learner: Self-supervised Learning of Concepts and
Mapping through Instruction Following [101.55727845195969]
本研究では,対話型3D環境におけるEmbodied Learner Concept (ECL)を提案する。
ロボットエージェントは視覚概念をグラウンディングし、セマンティックマップを構築し、タスクを完了させるためにアクションを計画することができる。
ECLは完全に透明で、長期計画において段階的に解釈可能である。
論文 参考訳(メタデータ) (2023-04-07T17:59:34Z) - A Benchmark for Compositional Visual Reasoning [5.576460160219606]
我々は、よりデータ効率のよい学習アルゴリズムへ進むために、新しいビジュアル推論ベンチマークであるコンポジションビジュアルリレーショナル(CVR)を導入する。
我々は,流体知能と非言語推論テストからインスピレーションを得て,抽象ルールと関連する画像データセットを大規模に作成するための新しい手法について述べる。
提案するベンチマークには, タスクルール間のサンプル効率, 一般化, 転送, および, 構成性を活用する能力が含まれている。
論文 参考訳(メタデータ) (2022-06-11T00:04:49Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Imagination-Augmented Natural Language Understanding [71.51687221130925]
自然言語理解タスクを解決するために,Imagination-Augmented Cross-modal (iACE)を導入する。
iACEは、強力な生成的および事前訓練された視覚・言語モデルから変換された外部知識で視覚的な想像を可能にする。
GLUEとSWAGの実験は、iACEが視覚的に教師付き事前訓練されたモデルよりも一貫した改善を達成していることを示している。
論文 参考訳(メタデータ) (2022-04-18T19:39:36Z) - Compositional Processing Emerges in Neural Networks Solving Math
Problems [100.80518350845668]
人工知能の最近の進歩は、大きなモデルが十分な言語データに基づいて訓練されると、文法構造が表現に現れることを示している。
我々は、この研究を数学的推論の領域にまで拡張し、どのように意味を構成するべきかについての正確な仮説を定式化することができる。
私たちの研究は、ニューラルネットワークがトレーニングデータに暗黙的に構造化された関係について何かを推測できるだけでなく、個々の意味の合成を合成全体へと導くために、この知識を展開できることを示している。
論文 参考訳(メタデータ) (2021-05-19T07:24:42Z) - Natural Language Rationales with Full-Stack Visual Reasoning: From
Pixels to Semantic Frames to Commonsense Graphs [106.15931418425906]
本研究は,複数の複雑な視覚的推論課題にまたがる自然言語の有理性の生成に焦点を当てた最初の研究である。
RationaleVT Transformerは、事前学習された言語モデルとオブジェクト認識、接地された視覚的セマンティックフレーム、視覚的コモンセンスグラフを組み合わせることで、自由テキスト論理を生成することを学習する統合モデルである。
実験の結果, 基礎となる事前学習言語モデルは視覚適応の恩恵を受けており, 複雑な視覚的・テキスト的推論タスクに対するモデル解釈可能性の補完として, 自由文合理化が有望な研究方向であることを示唆した。
論文 参考訳(メタデータ) (2020-10-15T05:08:56Z) - Concept Learners for Few-Shot Learning [76.08585517480807]
本研究では,人間の解釈可能な概念次元に沿って学習することで,一般化能力を向上させるメタ学習手法であるCOMETを提案する。
我々は,細粒度画像分類,文書分類,セルタイプアノテーションなど,さまざまな領域からの少数ショットタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2020-07-14T22:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。