論文の概要: Passive learning of active causal strategies in agents and language
models
- arxiv url: http://arxiv.org/abs/2305.16183v1
- Date: Thu, 25 May 2023 15:39:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 14:10:27.963718
- Title: Passive learning of active causal strategies in agents and language
models
- Title(参考訳): エージェントと言語モデルにおける能動的因果戦略の受動的学習
- Authors: Andrew Kyle Lampinen and Stephanie C Y Chan and Ishita Dasgupta and
Andrew J Nam and Jane X Wang
- Abstract要約: 純粋受動的学習は、エージェントが因果構造を決定・使用するための一般化可能な戦略を学習できることを示す。
専門家データに対する模倣によって訓練されたエージェントは、実際に、トレーニングデータに存在しない因果関係を推論し、使用するためにテスト時に一般化できることを示す。
説明は受動的学習者が完全に確立されたトレーニングデータからアウト・オブ・ディストリビューションを一般化することを可能にする。
- 参考スコア(独自算出の注目度): 5.78978559372472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What can be learned about causality and experimentation from passive data?
This question is salient given recent successes of passively-trained language
models in interactive domains such as tool use. Passive learning is inherently
limited. However, we show that purely passive learning can in fact allow an
agent to learn generalizable strategies for determining and using causal
structures, as long as the agent can intervene at test time. We formally
illustrate that learning a strategy of first experimenting, then seeking goals,
can allow generalization from passive learning in principle. We then show
empirically that agents trained via imitation on expert data can indeed
generalize at test time to infer and use causal links which are never present
in the training data; these agents can also generalize experimentation
strategies to novel variable sets never observed in training. We then show that
strategies for causal intervention and exploitation can be generalized from
passive data even in a more complex environment with high-dimensional
observations, with the support of natural language explanations. Explanations
can even allow passive learners to generalize out-of-distribution from
perfectly-confounded training data. Finally, we show that language models,
trained only on passive next-word prediction, can generalize causal
intervention strategies from a few-shot prompt containing examples of
experimentation, together with explanations and reasoning. These results
highlight the surprising power of passive learning of active causal strategies,
and may help to understand the behaviors and capabilities of language models.
- Abstract(参考訳): 受動的データから因果関係と実験について何を学ぶことができるか?
ツール使用のような対話型ドメインにおける受動的に訓練された言語モデルの成功を考えると、この問題は健全である。
受動的学習は本質的に限定的である。
しかし、純粋受動的学習は、エージェントがテスト時に介入できる限り、エージェントが因果構造を決定・使用するための一般化可能な戦略を学習できることを示す。
我々は、まず実験し、次に目標を求める戦略を学習することで、受動的学習を原則として一般化できることを正式に説明する。
そして、専門家データに対する模倣によって訓練されたエージェントが、訓練データに存在しない因果関係を推論し、使用するために実際にテスト時に一般化できることを実証的に示す。
さらに,自然言語による説明を援用した,より複雑な環境においても,受動的データから因果的介入と搾取の戦略を一般化できることを示した。
説明は、受動的学習者が完全なトレーニングデータから分散を一般化することを可能にする。
最後に,受動的次単語予測のみを訓練した言語モデルは,説明や推論とともに,実験の例を含む数発のプロンプトから因果的介入戦略を一般化できることを示す。
これらの結果は、アクティブ因果戦略の受動的学習の驚くべき力を強調し、言語モデルの振る舞いや能力を理解するのに役立つかもしれない。
関連論文リスト
- Understanding Your Agent: Leveraging Large Language Models for Behavior
Explanation [7.647395374489533]
本研究では,状態や行動の観察のみに基づいて,エージェントの行動に関する自然言語説明を生成する手法を提案する。
提案手法は,人間ドメインの専門家が作成したものと同じくらい役立つ説明を生成する。
論文 参考訳(メタデータ) (2023-11-29T20:16:23Z) - Reinforcement Learning Fine-tuning of Language Models is Biased Towards
More Extractable Features [0.5937476291232802]
我々は,大規模言語モデルの教師付き微調整における帰納的バイアスを規定する原則が,強化学習を用いた微調整プロセスにおいても適用できるかどうかを考察する。
これらの仮説の強い証拠となる統計的に有意な相関関係を見いだす。
論文 参考訳(メタデータ) (2023-11-07T15:00:39Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Explaining Agent Behavior with Large Language Models [7.128139268426959]
本研究では,状態や行動の観察のみに基づいて,エージェントの行動に関する自然言語説明を生成する手法を提案する。
エージェントの振る舞いのコンパクトな表現がいかに学習され、妥当な説明を生み出すかを示す。
論文 参考訳(メタデータ) (2023-09-19T06:13:24Z) - Investigating Forgetting in Pre-Trained Representations Through
Continual Learning [51.30807066570425]
事前学習した言語モデルの汎用性に及ぼす表現忘れの影響について検討する。
様々な事前学習されたLMで一般化が破壊され,構文的・意味的知識は連続学習によって忘れられることがわかった。
論文 参考訳(メタデータ) (2023-05-10T08:27:59Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Mind Your Outliers! Investigating the Negative Impact of Outliers on
Active Learning for Visual Question Answering [71.15403434929915]
視覚的質問応答のタスクにおいて、5つのモデルと4つのデータセットにまたがって、多種多様な能動的学習アプローチがランダム選択を上回りません。
アクティブな学習手法が好まれるが、モデルは学習に失敗する例の集まりである。
本研究では,アクティブ学習プールにおける集団外乱の減少に伴い,アクティブ学習サンプル効率が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-07-06T00:52:11Z) - Data-driven Analysis for Understanding Team Sports Behaviors [1.1844977816228044]
チームスポーツなどの実世界の生物的マルチエージェント行動に関する規則は、しばしばほとんど不明である。
データからのルールの推定、すなわち機械学習のようなデータ駆動アプローチは、そのような行動の分析に効果的な方法を提供する。
本調査は,バスケットボールやサッカーなどのチーム内スポーツ行動の定量的理解のためのデータ駆動分析に焦点を当てた。
論文 参考訳(メタデータ) (2021-02-15T13:31:45Z) - Knowledge-driven Data Construction for Zero-shot Evaluation in
Commonsense Question Answering [80.60605604261416]
本稿では,共通認識課題にまたがるゼロショット質問応答のための新しいニューラルシンボリック・フレームワークを提案する。
言語モデル、トレーニング体制、知識ソース、データ生成戦略のセットを変えて、タスク間の影響を測定します。
個別の知識グラフは特定のタスクに適しているが、グローバルな知識グラフはさまざまなタスクに対して一貫した利得をもたらす。
論文 参考訳(メタデータ) (2020-11-07T22:52:21Z) - Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason
Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。
本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文 参考訳(メタデータ) (2020-06-11T17:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。