Fugu-MT 論文翻訳(概要): Representation in large language models

論文の概要: Representation in large language models

arxiv url: http://arxiv.org/abs/2501.00885v1
Date: Wed, 01 Jan 2025 16:19:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-05 16:54:32.069128
Title: Representation in large language models
Title（参考訳）: 大規模言語モデルにおける表現
Authors: Cameron C. Yetman,
Abstract要約: 大規模言語モデルの振る舞いは、部分的に表現に基づく情報処理によって引き起こされていると私は主張する。これらの表現を調査し、説明を開発するためのテクニックについて説明する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The extraordinary success of recent Large Language Models (LLMs) on a diverse array of tasks has led to an explosion of scientific and philosophical theorizing aimed at explaining how they do what they do. Unfortunately, disagreement over fundamental theoretical issues has led to stalemate, with entrenched camps of LLM optimists and pessimists often committed to very different views of how these systems work. Overcoming stalemate requires agreement on fundamental questions, and the goal of this paper is to address one such question, namely: is LLM behavior driven partly by representation-based information processing of the sort implicated in biological cognition, or is it driven entirely by processes of memorization and stochastic table look-up? This is a question about what kind of algorithm LLMs implement, and the answer carries serious implications for higher level questions about whether these systems have beliefs, intentions, concepts, knowledge, and understanding. I argue that LLM behavior is partially driven by representation-based information processing, and then I describe and defend a series of practical techniques for investigating these representations and developing explanations on their basis. The resulting account provides a groundwork for future theorizing about language models and their successors.
Abstract（参考訳）: 様々なタスクにおける最近のLarge Language Models (LLM) の異常な成功は、彼らが何をするかを説明することを目的とした科学的、哲学的な理論の爆発に繋がった。残念ながら、基本的な理論上の問題に対する意見の相違は行き詰まりを招き、LLMの楽観主義者や悲観主義者の密集したキャンプは、これらのシステムがどのように機能するかについて、非常に異なる見方にしばしばコミットした。本論文の目的は,生物認知に係わる分類の表現に基づく情報処理によって部分的に駆動されるLCM行動,あるいは記憶と確率表のルックアップのプロセスによって完全に駆動されるか,という問題に対処することである。 LLMがどのようなアルゴリズムを実装しているのかという質問であり、その答えは、これらのシステムが信念、意図、概念、知識、理解を持っているかどうかに関するより高度な質問に対して深刻な意味を持つ。 LLMの動作は表現に基づく情報処理によって部分的に駆動され、その上で、これらの表現を調査し、それらに基づいて説明を開発するための一連の実践的テクニックを記述し、守ります。結果として得られた説明は、言語モデルとその後継に関する将来の理論の基礎を提供する。

関連論文リスト

How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文参考訳（メタデータ） (2025-04-10T16:14:55Z)
Exploring the Hidden Reasoning Process of Large Language Models by Misleading Them [5.4908640334628345]
大規模言語モデル (LLM) とビジョン言語モデル (VLM) は様々な推論タスクを実行できる。我々は,LLM/VLMが抽象的推論を行うかどうかを調べるために,新しい実験手法であるMisleading Fine-Tuning(MisFT)を提案する。
論文参考訳（メタデータ） (2025-03-20T17:54:42Z)
The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding [65.28200190598082]
本稿では、慎重に設計された物理概念理解タスクであるPhysorCoについて要約評価を行う。我々のタスクは、物理的現象を抽象的に記述するグリッド形式入力の使用によって問題を緩和する。 1)GP-4oを含む最先端のLLM, 40%遅れの遅れ, 2) グリッドタスクで失敗するとオウム, o1 現象が LLM に存在するが, 自然言語で同じ概念を記述し, 認識することができる。
論文参考訳（メタデータ） (2025-02-13T04:00:03Z)
Do Large Language Models Advocate for Inferentialism? [0.0]
ChatGPTやClaudeといった大規模言語モデル(LLM)の出現は、言語哲学に対する新たな課題を提示している。本稿では,これらのシステムを理解するための代替基盤フレームワークとして,Robert Brandom氏の推論的セマンティクスについて考察する。
論文参考訳（メタデータ） (2024-12-19T03:48:40Z)
Language Agents Meet Causality -- Bridging LLMs and Causal World Models [50.79984529172807]
因果表現学習を大規模言語モデルと統合する枠組みを提案する。このフレームワークは、自然言語表現に関連付けられた因果変数を持つ因果世界モデルを学ぶ。本研究では,時間的スケールと環境の複雑さを考慮した因果推論と計画課題の枠組みを評価する。
論文参考訳（メタデータ） (2024-10-25T18:36:37Z)
Does Reasoning Emerge? Examining the Probabilities of Causation in Large Language Models [6.922021128239465]
AIの最近の進歩は、大規模言語モデル(LLM)の能力によって推進されている。本稿では,LLMが実世界の推論機構をいかに効果的に再現できるかを評価することを目的とした,理論的かつ実用的なフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-15T15:19:11Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
FaithLM: Towards Faithful Explanations for Large Language Models [67.29893340289779]
大きな言語モデル(LLM)は、内部知識と推論能力を活用することで複雑なタスクに対処するのに熟練している。これらのモデルのブラックボックスの性質は、意思決定プロセスを説明するタスクを複雑にしている。自然言語 (NL) による LLM の決定を説明するために FaithLM を紹介した。
論文参考訳（メタデータ） (2024-02-07T09:09:14Z)
Learning to Generate Explainable Stock Predictions using Self-Reflective Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文参考訳（メタデータ） (2024-02-06T03:18:58Z)
From Understanding to Utilization: A Survey on Explainability for Large Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文参考訳（メタデータ） (2024-01-23T16:09:53Z)
The Quo Vadis of the Relationship between Language and Large Language Models [3.10770247120758]
LLM(Large Language Models)は、LLMを言語科学モデルとして採用することを奨励している。透明性に欠ける科学的モデルの導入によって引き起こされる最も重要な理論的および経験的リスクを特定します。現在の開発段階において、LLMは言語に関する説明をほとんど提供していないと結論付けている。
論文参考訳（メタデータ） (2023-10-17T10:54:24Z)
Improving Large Language Models in Event Relation Logical Prediction [33.88499005859982]
イベント関係抽出は、綿密な意味的理解と厳密な論理的推論を必要とする課題である。本稿では,イベント関連論理の理解と適用におけるLLMの能力について,詳細な調査を行う。本研究により,LLMは論理的に一貫した推論子ではないことが明らかとなった。
論文参考訳（メタデータ） (2023-10-13T14:53:06Z)
Shortcut Learning of Large Language Models in Natural Language Understanding [119.45683008451698]
大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。これは、その一般化性と敵対的堅牢性に大きな影響を与えている。
論文参考訳（メタデータ） (2022-08-25T03:51:39Z)
MAML and ANIL Provably Learn Representations [60.17417686153103]
我々は,MAMLとANILという2つの有名なメタ学習手法が,与えられたタスク群間の共通表現を学習可能であることを証明した。具体的には、よく知られたマルチタスク線形表現学習環境では、指数関数的に高速な速度で接地トラス表現を復元することができる。解析の結果,MAMLとANILがベースとなる表現を回復させる駆動力は,モデルの最終層に適応していることが判明した。
論文参考訳（メタデータ） (2022-02-07T19:43:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。