論文の概要: Inductive Biases for Zero-shot Systematic Generalization in Language-informed Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2501.15270v1
- Date: Sat, 25 Jan 2025 16:36:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:55:33.131125
- Title: Inductive Biases for Zero-shot Systematic Generalization in Language-informed Reinforcement Learning
- Title(参考訳): 言語インフォームド強化学習におけるゼロショット体系的一般化のための帰納的バイアス
- Authors: Negin Hashemi Dijujin, Seyed Roozbeh Razavi Rohani, Mohammad Mahdi Samiei, Mahdieh Soleymani Baghshah,
- Abstract要約: ニューラル生産システム(NPS)に基づくモジュール性と疎性に対するアーキテクチャレベルの帰納バイアスを提供する。
BabyAI環境における本研究の結果から,提案モデルの体系的一般化とサンプル効率は,従来のモデルに比べて大幅に改善されていることが示唆された。
- 参考スコア(独自算出の注目度): 2.4392539322920763
- License:
- Abstract: Sample efficiency and systematic generalization are two long-standing challenges in reinforcement learning. Previous studies have shown that involving natural language along with other observation modalities can improve generalization and sample efficiency due to its compositional and open-ended nature. However, to transfer these properties of language to the decision-making process, it is necessary to establish a proper language grounding mechanism. One approach to this problem is applying inductive biases to extract fine-grained and informative representations from the observations, which makes them more connectable to the language units. We provide architecture-level inductive biases for modularity and sparsity mainly based on Neural Production Systems (NPS). Alongside NPS, we assign a central role to memory in our architecture. It can be seen as a high-level information aggregator which feeds policy/value heads with comprehensive information and simultaneously guides selective attention in NPS through attentional feedback. Our results in the BabyAI environment suggest that the proposed model's systematic generalization and sample efficiency are improved significantly compared to previous models. An extensive ablation study on variants of the proposed method is conducted, and the effectiveness of each employed technique on generalization, sample efficiency, and training stability is specified.
- Abstract(参考訳): サンプル効率と体系的な一般化は、強化学習における長年の課題である。
従来の研究では、自然言語と他の観測モダリティが組み合わさることで、その構成的かつオープンな性質により、一般化とサンプル効率が向上することが示されている。
しかし、これらの言語特性を意思決定プロセスに転送するには、適切な言語基盤機構を確立する必要がある。
この問題に対する1つのアプローチは、インダクティブバイアスを適用して、観察からきめ細かな情報表現を抽出し、言語ユニットとの接続性を高めることである。
我々は,主にニューラル生産システム(NPS)に基づくモジュール性と疎性に対するアーキテクチャレベルの帰納バイアスを提供する。
NPSとともに、アーキテクチャにおけるメモリの中心的な役割を割り当てます。
これは、ポリシー/バリューヘッドに包括的な情報を与え、同時に注意フィードバックを通じてNPSの選択的注意を誘導する、ハイレベルな情報収集者と見なすことができる。
BabyAI環境における本研究の結果から,提案モデルの体系的一般化とサンプル効率は,従来のモデルに比べて大幅に改善されていることが示唆された。
提案手法の変種に関する広範囲にわたるアブレーション研究を行い, 適用手法が一般化, 試料効率, 訓練安定性に及ぼす影響について検討した。
関連論文リスト
- Can a Neural Model Guide Fieldwork? A Case Study on Morphological Data Collection [3.48094693551887]
言語学のフィールドワークは、言語の文書化と保存において重要な要素である。
本稿では,言語学者をフィールドワーク中に指導し,言語学者と話者の相互作用のダイナミクスを説明する新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-09-22T23:40:03Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z) - Deep networks for system identification: a Survey [56.34005280792013]
システム識別は、入力出力データから動的システムの数学的記述を学習する。
同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。
我々は、フィードフォワード、畳み込み、リカレントネットワークなどの文献で一般的に採用されているアーキテクチャについて論じる。
論文 参考訳(メタデータ) (2023-01-30T12:38:31Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Incorporating Linguistic Knowledge for Abstractive Multi-document
Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。
依存関係情報を言語誘導型注意機構に処理する。
言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文 参考訳(メタデータ) (2021-09-23T08:13:35Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Aspects of Terminological and Named Entity Knowledge within Rule-Based
Machine Translation Models for Under-Resourced Neural Machine Translation
Scenarios [3.413805964168321]
ルールベースの機械翻訳は、言語知識が専門家によって符号化される機械翻訳パラダイムである。
ルールベース機械翻訳システムに含まれる情報を活用し、ニューラルマシン翻訳モデルを改善するための様々なアプローチについて述べる。
その結果,提案モデルでは外部情報から学習する能力が限られていることが示唆された。
論文 参考訳(メタデータ) (2020-09-28T15:19:23Z) - Incorporating Effective Global Information via Adaptive Gate Attention
for Text Classification [13.45504908358177]
複数のベースラインモデルと比較して,単純な統計情報により分類性能が向上することを示す。
本稿では,グローバル情報を用いた適応ゲート注意モデル (AGA+GI) と呼ばれるゲート機構を持つ分類器を提案する。
実験の結果,提案手法はCNNベースの手法やRNNベースの手法よりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2020-02-22T10:06:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。