論文の概要: Can Large Language Models Learn Independent Causal Mechanisms?
- arxiv url: http://arxiv.org/abs/2402.02636v1
- Date: Sun, 4 Feb 2024 23:04:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 18:23:44.938796
- Title: Can Large Language Models Learn Independent Causal Mechanisms?
- Title(参考訳): 大規模言語モデルは独立因果メカニズムを学習できるか?
- Authors: Ga\"el Gendron, Bao Trung Nguyen, Alex Yuxuan Peng, Michael Witbrock,
Gillian Dobbie
- Abstract要約: 大きな言語モデル(LLM)は、一般的でない設定や分散シフトで同じタスクで不足する。
我々は,複数の疎相互作用言語モデリングモジュールからなる新しいLLMアーキテクチャを開発した。
このような因果的制約は、抽象的および因果的推論タスクにおけるアウト・オブ・ディストリビューション性能を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 9.950033005734165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite impressive performance on language modelling and complex reasoning
tasks, Large Language Models (LLMs) fall short on the same tasks in uncommon
settings or with distribution shifts, exhibiting some lack of generalisation
ability. This issue has usually been alleviated by feeding more training data
into the LLM. However, this method is brittle, as the scope of tasks may not be
readily predictable or may evolve, and updating the model with new data
generally requires extensive additional training. By contrast, systems, such as
causal models, that learn abstract variables and causal relationships can
demonstrate increased robustness against changes in the distribution. One
reason for this success is the existence and use of Independent Causal
Mechanisms (ICMs) representing high-level concepts that only sparsely interact.
In this work, we apply two concepts from causality to learn ICMs within LLMs.
We develop a new LLM architecture composed of multiple sparsely interacting
language modelling modules. We introduce a routing scheme to induce
specialisation of the network into domain-specific modules. We also present a
Mutual Information minimisation objective that trains a separate module to
learn abstraction and domain-invariant mechanisms. We show that such causal
constraints can improve out-of-distribution performance on abstract and causal
reasoning tasks.
- Abstract(参考訳): 言語モデリングや複雑な推論タスクでの印象的なパフォーマンスにもかかわらず、大きな言語モデル(llm)は一般的でない設定や分散シフトで同じタスクに不足し、一般化能力に欠ける。
この問題は通常、LLMにより多くのトレーニングデータを供給することで緩和されている。
しかし、この方法は不安定であり、タスクの範囲は容易に予測できないか、あるいは進化する可能性があり、新しいデータでモデルを更新するには、一般的に広範な追加のトレーニングが必要である。
対照的に、抽象変数や因果関係を学習する因果モデルのようなシステムは、分布の変化に対する堅牢性を高めることができる。
この成功の1つの理由は独立因果メカニズム(ICMs)の存在と使用であり、緩やかな相互作用のみを表現している。
本研究では、因果性から2つの概念を適用し、LCM内でICMを学習する。
我々は,複数の疎相互作用言語モデリングモジュールからなる新しいLLMアーキテクチャを開発した。
本稿では,ネットワークをドメイン固有モジュールに特殊化するルーティング方式を提案する。
また,分離モジュールを訓練して抽象化やドメイン不変機構を学習する相互情報最小化目標も提示する。
このような因果的制約は,抽象的および因果的推論タスクにおける分散的性能を向上させる。
関連論文リスト
- Distilling LLMs' Decomposition Abilities into Compact Language Models [12.083499752124649]
大規模言語モデル(LLM)はその推論能力に習熟性を示した。
コンパクトモデルは、カスタマイズされたトレーニングを提供するが、複雑な推論タスクの解決に不足することが多い。
論文 参考訳(メタデータ) (2024-02-02T13:23:15Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - The Curious Case of Nonverbal Abstract Reasoning with Multi-Modal Large
Language Models [20.177263185773153]
MLLM(Multi-modal large language model)は、言語情報と視覚情報を統合したものである。
MLLMの革新的展望にもかかわらず、推論能力に対する我々の理解は限られている。
論文 参考訳(メタデータ) (2024-01-22T16:57:05Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - ModuleFormer: Modularity Emerges from Mixture-of-Experts [60.6148988099284]
本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。
以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:57Z) - A Mechanism for Solving Relational Tasks in Transformer Language Models [36.29933464955979]
言語モデル(LM)に対する主要な批判は、その調査性である。
本稿では,そのサイズと複雑さにもかかわらず,一対一のリレーショナルタスクを解くための単純な計算機構を利用する場合があることを示す。
論文 参考訳(メタデータ) (2023-05-25T15:04:01Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。