Fugu-MT 論文翻訳(概要): Can Large Language Models Learn Independent Causal Mechanisms?

論文の概要: Can Large Language Models Learn Independent Causal Mechanisms?

arxiv url: http://arxiv.org/abs/2402.02636v1
Date: Sun, 4 Feb 2024 23:04:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 18:23:44.938796
Title: Can Large Language Models Learn Independent Causal Mechanisms?
Title（参考訳）: 大規模言語モデルは独立因果メカニズムを学習できるか?
Authors: Ga\"el Gendron, Bao Trung Nguyen, Alex Yuxuan Peng, Michael Witbrock, Gillian Dobbie
Abstract要約: 大きな言語モデル(LLM)は、一般的でない設定や分散シフトで同じタスクで不足する。我々は,複数の疎相互作用言語モデリングモジュールからなる新しいLLMアーキテクチャを開発した。このような因果的制約は、抽象的および因果的推論タスクにおけるアウト・オブ・ディストリビューション性能を向上させることができることを示す。
参考スコア（独自算出の注目度）: 9.950033005734165
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite impressive performance on language modelling and complex reasoning tasks, Large Language Models (LLMs) fall short on the same tasks in uncommon settings or with distribution shifts, exhibiting some lack of generalisation ability. This issue has usually been alleviated by feeding more training data into the LLM. However, this method is brittle, as the scope of tasks may not be readily predictable or may evolve, and updating the model with new data generally requires extensive additional training. By contrast, systems, such as causal models, that learn abstract variables and causal relationships can demonstrate increased robustness against changes in the distribution. One reason for this success is the existence and use of Independent Causal Mechanisms (ICMs) representing high-level concepts that only sparsely interact. In this work, we apply two concepts from causality to learn ICMs within LLMs. We develop a new LLM architecture composed of multiple sparsely interacting language modelling modules. We introduce a routing scheme to induce specialisation of the network into domain-specific modules. We also present a Mutual Information minimisation objective that trains a separate module to learn abstraction and domain-invariant mechanisms. We show that such causal constraints can improve out-of-distribution performance on abstract and causal reasoning tasks.
Abstract（参考訳）: 言語モデリングや複雑な推論タスクでの印象的なパフォーマンスにもかかわらず、大きな言語モデル(llm)は一般的でない設定や分散シフトで同じタスクに不足し、一般化能力に欠ける。この問題は通常、LLMにより多くのトレーニングデータを供給することで緩和されている。しかし、この方法は不安定であり、タスクの範囲は容易に予測できないか、あるいは進化する可能性があり、新しいデータでモデルを更新するには、一般的に広範な追加のトレーニングが必要である。対照的に、抽象変数や因果関係を学習する因果モデルのようなシステムは、分布の変化に対する堅牢性を高めることができる。この成功の1つの理由は独立因果メカニズム(ICMs)の存在と使用であり、緩やかな相互作用のみを表現している。本研究では、因果性から2つの概念を適用し、LCM内でICMを学習する。我々は,複数の疎相互作用言語モデリングモジュールからなる新しいLLMアーキテクチャを開発した。本稿では,ネットワークをドメイン固有モジュールに特殊化するルーティング方式を提案する。また,分離モジュールを訓練して抽象化やドメイン不変機構を学習する相互情報最小化目標も提示する。このような因果的制約は,抽象的および因果的推論タスクにおける分散的性能を向上させる。

関連論文リスト

Causal Reflection with Language Models [0.276240219662896]
本稿では,因果関係を状態,行動,時間,摂動の動的関数として明示的にモデル化するフレームワークCausal Reflectionを紹介する。我々は,予測結果と観測結果のミスマッチを識別し,因果仮説を生成し,エージェントの内部モデルを改訂する形式的リフレクション機構を定義する。我々の枠組みは、進化する環境における因果的理解を適応し、自己修正し、伝達できる因果的反射エージェントの理論的基礎を定めている。
論文参考訳（メタデータ） (2025-08-06T14:44:23Z)
Who Reasons in the Large Language Models? [18.521142439429635]
十分に訓練された大言語モデルにおける推論能力は、Transformerのマルチヘッド自己認識機構における出力投影モジュール(oproj)に起因していることを示す。我々は、オプロイが推論を可能にする上で中心的な役割を果たすことを示す状況証拠と経験的証拠の両方を提供し、他のモジュールはより流動的な対話に寄与する。
論文参考訳（メタデータ） (2025-05-27T10:26:47Z)
The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
Incentivizing Multimodal Reasoning in Large Models for Direct Robot Manipulation [89.5123417007126]
空間的行動空間をLMM(Large Multimodal Models)に理解させる方法について述べる。また,これらの課題を解決する上で,LMMの推論能力を完全に活用する方法を示す。その結果、ReasonManipという名前の7Bバックボーン上に構築された推論モデルは、3つの顕著な利点を示しています。
論文参考訳（メタデータ） (2025-05-19T06:00:14Z)
Improving Reasoning Performance in Large Language Models via Representation Engineering [2.0099933815960256]
大規模言語モデル(LLM)の表現工学的アプローチを提案する。モデルアクティベーションは、推論タスクを処理する際にLLMの残ストリームから読み込まれる。 LLMは、ある程度に、アクティベーションを調節することで、認識された推論能力を向上させることができることを示す。
論文参考訳（メタデータ） (2025-04-28T04:58:43Z)
Benchmarking Systematic Relational Reasoning with Large Language and Reasoning Models [15.56445409535547]
大規模言語モデル(LLM)は、体系的な推論に苦慮している。本稿では,関係合成の体系的推論を必要とするタスクに焦点をあてる。その結果,LLM と LRM の総合的な性能は,ランダムな確率よりも優れていた。
論文参考訳（メタデータ） (2025-03-30T15:41:55Z)
The Reasoning-Memorization Interplay in Language Models Is Mediated by a Single Direction [34.86855316803838]
我々は、真の推論とメモリリコールのバランスを制御できるモデル残差ストリームの線形特徴セットを同定する。これらの推論機能に介入することで、解答生成時に最も関連性の高い問題解決能力をモデルがより正確に活性化できることが示される。
論文参考訳（メタデータ） (2025-03-29T14:00:44Z)
Computation Mechanism Behind LLM Position Generalization [59.013857707250814]
大規模言語モデル(LLM)は、テキストの位置を扱う際の柔軟性を示す。彼らは位置摂動のあるテキストを理解し、より長いテキストに一般化することができる。この研究は言語現象とLLMの計算機構を結びつける。
論文参考訳（メタデータ） (2025-03-17T15:47:37Z)
Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文参考訳（メタデータ） (2024-10-31T12:48:58Z)
Language Agents Meet Causality -- Bridging LLMs and Causal World Models [50.79984529172807]
因果表現学習を大規模言語モデルと統合する枠組みを提案する。このフレームワークは、自然言語表現に関連付けられた因果変数を持つ因果世界モデルを学ぶ。本研究では,時間的スケールと環境の複雑さを考慮した因果推論と計画課題の枠組みを評価する。
論文参考訳（メタデータ） (2024-10-25T18:36:37Z)
Unconstrained Model Merging for Enhanced LLM Reasoning [42.079040543428036]
複数のエキスパートモデルをひとつの大きな言語モデルにマージする可能性について検討する。等質なモデルアーキテクチャと異質なモデルアーキテクチャの両方に対応可能な,制約のないモデルマージフレームワークを提案する。 7つのベンチマークと9つの推論最適化LDMで、推論がマージから出現する重要な発見を明らかにする。
論文参考訳（メタデータ） (2024-10-17T16:04:07Z)
Graph-based Unsupervised Disentangled Representation Learning via Multimodal Large Language Models [42.17166746027585]
複素データ内の因子化属性とその相互関係を学習するための双方向重み付きグラフベースフレームワークを提案する。具体的には、グラフの初期ノードとして要素を抽出する$beta$-VAEベースのモジュールを提案する。これらの相補的加群を統合することで、我々は細粒度、実用性、教師なしの絡み合いをうまく達成できる。
論文参考訳（メタデータ） (2024-07-26T15:32:21Z)
The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。 LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文参考訳（メタデータ） (2024-03-25T19:07:32Z)
Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文参考訳（メタデータ） (2024-03-14T08:18:59Z)
Building Minimal and Reusable Causal State Abstractions for Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。 CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文参考訳（メタデータ） (2024-01-23T05:43:15Z)
The Curious Case of Nonverbal Abstract Reasoning with Multi-Modal Large Language Models [19.213774611556]
MLLM(Multi-modal large language model)は、言語情報と視覚情報を統合したものである。 MLLMの革新的展望にもかかわらず、推論能力に対する我々の理解は限られている。本研究では,オープンソースおよびクローズドソースMLLMの非言語的抽象的推論能力を評価する。
論文参考訳（メタデータ） (2024-01-22T16:57:05Z)
Explanation-aware Soft Ensemble Empowers Large Language Model In-context Learning [50.00090601424348]
大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。我々は,LLMを用いたテキスト内学習を支援するための説明型ソフトアンサンブルフレームワークであるEASEを提案する。
論文参考訳（メタデータ） (2023-11-13T06:13:38Z)
Systematic Evaluation of Causal Discovery in Visual Model Based Reinforcement Learning [76.00395335702572]
AIと因果関係の中心的な目標は、抽象表現と因果構造を共同で発見することである。因果誘導を研究するための既存の環境は、複雑なタスク固有の因果グラフを持つため、この目的には適していない。本研究の目的は,高次変数の学習表現と因果構造の研究を促進することである。
論文参考訳（メタデータ） (2021-07-02T05:44:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。