論文の概要: More than Correlation: Do Large Language Models Learn Causal
Representations of Space?
- arxiv url: http://arxiv.org/abs/2312.16257v1
- Date: Tue, 26 Dec 2023 01:27:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 20:17:04.396715
- Title: More than Correlation: Do Large Language Models Learn Causal
Representations of Space?
- Title(参考訳): 相関以上のもの: 大きな言語モデルは空間の因果表現を学ぶか?
- Authors: Yida Chen, Yixian Gan, Sijia Li, Li Yao, Xiaohan Zhao
- Abstract要約: 本研究では,大規模言語モデルにおける空間表現の因果関係を明らかにすることに焦点を当てた。
実験の結果,空間表現が次の単語予測におけるモデルの性能に影響を与え,地理空間情報に依存する下流課題が示された。
- 参考スコア(独自算出の注目度): 6.293100288400849
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work found high mutual information between the learned representations
of large language models (LLMs) and the geospatial property of its input,
hinting an emergent internal model of space. However, whether this internal
space model has any causal effects on the LLMs' behaviors was not answered by
that work, led to criticism of these findings as mere statistical correlation.
Our study focused on uncovering the causality of the spatial representations in
LLMs. In particular, we discovered the potential spatial representations in
DeBERTa, GPT-Neo using representational similarity analysis and linear and
non-linear probing. Our casual intervention experiments showed that the spatial
representations influenced the model's performance on next word prediction and
a downstream task that relies on geospatial information. Our experiments
suggested that the LLMs learn and use an internal model of space in solving
geospatial related tasks.
- Abstract(参考訳): 近年の研究では、大規模言語モデル(llm)の学習表現と入力の空間的性質との間に高い相互情報があり、空間の創発的な内部モデルが示唆されている。
しかし、この内部空間モデルがLSMの挙動に因果的影響を及ぼすかどうかはその研究で答えられず、これらの発見を単なる統計的相関として批判した。
本研究では,LLMにおける空間表現の因果関係を明らかにすることに焦点を当てた。
特に,DeBERTa,GPT-Neoの空間表現について,表現類似性解析と線形および非線形探索を用いて検討した。
カジュアルな介入実験により、空間表現が次の単語予測におけるモデルの性能に影響を及ぼし、地理空間情報に依存する下流タスクが得られた。
実験の結果,LLMは空間の内的モデルを用いて空間空間に関連した課題を解くことが示唆された。
関連論文リスト
- Hyperbolic Fine-tuning for Large Language Models [56.54715487997674]
本研究では,大規模言語モデル(LLM)の非ユークリッド的特徴について検討する。
トークン埋め込みは高い双曲性を示し,埋め込み空間に木のような構造が潜んでいることを示す。
双曲的低ランク効率微調整法HypLoRAを導入し, 双曲的多様体上で直接低ランク適応を行う。
論文 参考訳(メタデータ) (2024-10-05T02:58:25Z) - SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models [70.01883340129204]
空間推論は 生物学的と人工知能の両方において 重要な要素です
本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
論文 参考訳(メタデータ) (2024-06-07T01:06:34Z) - Probing the Information Theoretical Roots of Spatial Dependence Measures [3.661228054439679]
空間依存度とエントロピーの情報理論測度との間には関係がある。
自己情報レンズによる空間自己相関の理論的根源を探る。
論文 参考訳(メタデータ) (2024-05-28T17:44:35Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Dive into the Chasm: Probing the Gap between In- and Cross-Topic
Generalization [66.4659448305396]
本研究は,3つの探索型実験を用いて種々のLMを解析し,In- vs. クロストピック一般化ギャップの背景にある理由を明らかにした。
はじめに、一般化ギャップと埋め込み空間の堅牢性は、LM間で大きく異なることを示した。
論文 参考訳(メタデータ) (2024-02-02T12:59:27Z) - Evaluating Spatial Understanding of Large Language Models [26.436450329727645]
大規模言語モデルは、様々なタスクにまたがる顕著な能力を示している。
近年の研究では、LLM表現は基礎となる基礎概念の側面を暗黙的に捉えていることが示唆されている。
自然言語ナビゲーションタスクを設計し,空間構造を表現・推論するLLMの能力を評価する。
論文 参考訳(メタデータ) (2023-10-23T03:44:40Z) - Comparing the latent space of generative models [0.0]
潜在ベクトル生成モデルの潜在空間におけるデータポイントの異なるエンコーディングは、データの背後にある様々な説明要因の多かれ少なかれ効果的で不整合な特徴づけをもたらす可能性がある。
単純な線形写像は、情報の大半を保存しながら、潜在空間から別の空間に渡すのに十分である。
論文 参考訳(メタデータ) (2022-07-14T10:39:02Z) - Analyzing the Latent Space of GAN through Local Dimension Estimation [4.688163910878411]
高忠実度画像合成におけるスタイルベースGAN(StyleGAN)は、それらの潜在空間の意味的特性を理解するために研究の動機となっている。
事前学習したGANモデルにおける任意の中間層に対する局所次元推定アルゴリズムを提案する。
提案した計量はDistortionと呼ばれ、学習された潜在空間上の内在空間の不整合を測定する。
論文 参考訳(メタデータ) (2022-05-26T06:36:06Z) - Contrastive Neighborhood Alignment [81.65103777329874]
本稿では,学習特徴のトポロジを維持するための多様体学習手法であるContrastive Neighborhood Alignment(CNA)を提案する。
対象モデルは、対照的な損失を用いて、ソース表現空間の局所構造を模倣することを目的としている。
CNAは3つのシナリオで説明される: 多様体学習、モデルが元のデータの局所的なトポロジーを次元還元された空間で維持する、モデル蒸留、小さな学生モデルがより大きな教師を模倣するために訓練される、レガシーモデル更新、より強力なモデルに置き換えられる、という3つのシナリオである。
論文 参考訳(メタデータ) (2022-01-06T04:58:31Z) - Spatial machine-learning model diagnostics: a model-agnostic
distance-based approach [91.62936410696409]
本研究は,空間予測誤差プロファイル (SPEP) と空間変数重要度プロファイル (SVIP) を,新しいモデルに依存しない評価・解釈ツールとして提案する。
統計学的手法、線形モデル、ランダムフォレスト、ハイブリッドアルゴリズムのSPEPとSVIPは、顕著な差異と関連する類似性を示している。
この新しい診断ツールは空間データ科学のツールキットを充実させ、MLモデルの解釈、選択、設計を改善する可能性がある。
論文 参考訳(メタデータ) (2021-11-13T01:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。