論文の概要: Representation in large language models
- arxiv url: http://arxiv.org/abs/2501.00885v1
- Date: Wed, 01 Jan 2025 16:19:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:17:34.353369
- Title: Representation in large language models
- Title(参考訳): 大規模言語モデルにおける表現
- Authors: Cameron C. Yetman,
- Abstract要約: 大規模言語モデルの振る舞いは、部分的に表現に基づく情報処理によって引き起こされていると私は主張する。
これらの表現を調査し、説明を開発するためのテクニックについて説明する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The extraordinary success of recent Large Language Models (LLMs) on a diverse array of tasks has led to an explosion of scientific and philosophical theorizing aimed at explaining how they do what they do. Unfortunately, disagreement over fundamental theoretical issues has led to stalemate, with entrenched camps of LLM optimists and pessimists often committed to very different views of how these systems work. Overcoming stalemate requires agreement on fundamental questions, and the goal of this paper is to address one such question, namely: is LLM behavior driven partly by representation-based information processing of the sort implicated in biological cognition, or is it driven entirely by processes of memorization and stochastic table look-up? This is a question about what kind of algorithm LLMs implement, and the answer carries serious implications for higher level questions about whether these systems have beliefs, intentions, concepts, knowledge, and understanding. I argue that LLM behavior is partially driven by representation-based information processing, and then I describe and defend a series of practical techniques for investigating these representations and developing explanations on their basis. The resulting account provides a groundwork for future theorizing about language models and their successors.
- Abstract(参考訳): 様々なタスクにおける最近のLarge Language Models (LLM) の異常な成功は、彼らが何をするかを説明することを目的とした科学的、哲学的な理論の爆発に繋がった。
残念ながら、基本的な理論上の問題に対する意見の相違は行き詰まりを招き、LLMの楽観主義者や悲観主義者の密集したキャンプは、これらのシステムがどのように機能するかについて、非常に異なる見方にしばしばコミットした。
本論文の目的は,生物認知に係わる分類の表現に基づく情報処理によって部分的に駆動されるLCM行動,あるいは記憶と確率表のルックアップのプロセスによって完全に駆動されるか,という問題に対処することである。
LLMがどのようなアルゴリズムを実装しているのかという質問であり、その答えは、これらのシステムが信念、意図、概念、知識、理解を持っているかどうかに関するより高度な質問に対して深刻な意味を持つ。
LLMの動作は表現に基づく情報処理によって部分的に駆動され、その上で、これらの表現を調査し、それらに基づいて説明を開発するための一連の実践的テクニックを記述し、守ります。
結果として得られた説明は、言語モデルとその後継に関する将来の理論の基礎を提供する。
関連論文リスト
- The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding [65.28200190598082]
本稿では、慎重に設計された物理概念理解タスクであるPhysorCoについて要約評価を行う。
我々のタスクは、物理的現象を抽象的に記述するグリッド形式入力の使用によって問題を緩和する。
1)GP-4oを含む最先端のLLM, 40%遅れの遅れ, 2) グリッドタスクで失敗するとオウム, o1 現象が LLM に存在するが, 自然言語で同じ概念を記述し, 認識することができる。
論文 参考訳(メタデータ) (2025-02-13T04:00:03Z) - A Survey on Large Language Models with some Insights on their Capabilities and Limitations [0.3222802562733786]
大規模言語モデル(LLM)は、様々な言語関連タスクで顕著なパフォーマンスを示す。
LLMは、そのコア機能を超えて、創発的な能力を示す。
本稿では,これらの機能を実現する基盤となるコンポーネント,スケーリング機構,アーキテクチャ戦略について検討する。
論文 参考訳(メタデータ) (2025-01-03T21:04:49Z) - Language Agents Meet Causality -- Bridging LLMs and Causal World Models [50.79984529172807]
因果表現学習を大規模言語モデルと統合する枠組みを提案する。
このフレームワークは、自然言語表現に関連付けられた因果変数を持つ因果世界モデルを学ぶ。
本研究では,時間的スケールと環境の複雑さを考慮した因果推論と計画課題の枠組みを評価する。
論文 参考訳(メタデータ) (2024-10-25T18:36:37Z) - Does Reasoning Emerge? Examining the Probabilities of Causation in Large Language Models [6.922021128239465]
AIの最近の進歩は、大規模言語モデル(LLM)の能力によって推進されている。
本稿では,LLMが実世界の推論機構をいかに効果的に再現できるかを評価することを目的とした,理論的かつ実用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-15T15:19:11Z) - What Do Language Models Learn in Context? The Structured Task Hypothesis [89.65045443150889]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)と呼ばれるデモで提示されたインコンテキストの例から新しいタスクを学習する
一般的な仮説の一つは、タスク選択によるICLの説明である。
もう一つの一般的な仮説は、ICLはメタ学習の一形態である、すなわち、モデルが事前学習時に学習アルゴリズムを学習し、それを実演に適用する、というものである。
論文 参考訳(メタデータ) (2024-06-06T16:15:34Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - The Quo Vadis of the Relationship between Language and Large Language
Models [3.10770247120758]
LLM(Large Language Models)は、LLMを言語科学モデルとして採用することを奨励している。
透明性に欠ける科学的モデルの導入によって引き起こされる最も重要な理論的および経験的リスクを特定します。
現在の開発段階において、LLMは言語に関する説明をほとんど提供していないと結論付けている。
論文 参考訳(メタデータ) (2023-10-17T10:54:24Z) - MAML and ANIL Provably Learn Representations [60.17417686153103]
我々は,MAMLとANILという2つの有名なメタ学習手法が,与えられたタスク群間の共通表現を学習可能であることを証明した。
具体的には、よく知られたマルチタスク線形表現学習環境では、指数関数的に高速な速度で接地トラス表現を復元することができる。
解析の結果,MAMLとANILがベースとなる表現を回復させる駆動力は,モデルの最終層に適応していることが判明した。
論文 参考訳(メタデータ) (2022-02-07T19:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。