論文の概要: Testing Causal Models of Word Meaning in GPT-3 and -4
- arxiv url: http://arxiv.org/abs/2305.14630v1
- Date: Wed, 24 May 2023 02:03:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 20:37:58.653353
- Title: Testing Causal Models of Word Meaning in GPT-3 and -4
- Title(参考訳): GPT-3と-4における単語意味の因果モデルの検討
- Authors: Sam Musker, Ellie Pavlick
- Abstract要約: 本稿では HIPE 理論のレンズによる GPT-3 と GPT-4 の語彙表現について検討する。
GPT-3がHIPEによって仮定された因果構造をコードしている証拠は見つからないが、GPT-4がそのような構造をコードしている証拠は見つからない。
- 参考スコア(独自算出の注目度): 18.654373173232205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have driven extraordinary improvements in NLP.
However, it is unclear how such models represent lexical concepts-i.e., the
meanings of the words they use. This paper evaluates the lexical
representations of GPT-3 and GPT-4 through the lens of HIPE theory, a theory of
concept representations which focuses on representations of words describing
artifacts (such as "mop", "pencil", and "whistle"). The theory posits a causal
graph that relates the meanings of such words to the form, use, and history of
the objects to which they refer. We test LLMs using the same stimuli originally
used by Chaigneau et al. (2004) to evaluate the theory in humans, and consider
a variety of prompt designs. Our experiments concern judgements about causal
outcomes, object function, and object naming. We find no evidence that GPT-3
encodes the causal structure hypothesized by HIPE, but do find evidence that
GPT-4 encodes such structure. The results contribute to a growing body of
research characterizing the representational capacity of large language models.
- Abstract(参考訳): 大規模言語モデル(llm)はnlpの大幅な改善を促した。
しかし、これらのモデルがどのように語彙概念、すなわち彼らが使用する単語の意味を表すのかは不明である。
本稿では,人工物を記述する単語(mop,pencil,whistleなど)の表現に焦点を当てた概念表現理論であるHIPE理論のレンズによるGPT-3とGPT-4の語彙表現を評価する。
この理論は、そのような単語の意味をそれらが参照する対象の形式、使用、歴史に関連付ける因果グラフを仮定している。
我々は、chaigneau et al. (2004) がもともと使用したのと同じ刺激を用いて、人間の理論を評価するためにllmをテストし、様々なプロンプトデザインを検討する。
実験では,因果結果,対象関数,対象命名に関する判断について検討した。
GPT-3がHIPEによって仮定された因果構造をコードしている証拠は見つからないが、GPT-4がそのような構造をコードしている証拠は見つからない。
この結果は,大規模言語モデルの表現能力を特徴付ける研究機関の成長に寄与する。
関連論文リスト
- A generative framework to bridge data-driven models and scientific theories in language neuroscience [84.76462599023802]
脳内の言語選択性の簡潔な説明を生成するためのフレームワークである生成的説明媒介バリデーションを提案する。
本研究では,説明精度が基礎となる統計モデルの予測力と安定性と密接に関連していることを示す。
論文 参考訳(メタデータ) (2024-10-01T15:57:48Z) - ExpLLM: Towards Chain of Thought for Facial Expression Recognition [61.49849866937758]
本研究では,表情認識のための思考の正確な連鎖(CoT)を生成するExpLLMという新しい手法を提案する。
具体的には、重要な観察、全体的な感情解釈、結論の3つの観点から、CoTメカニズムを設計しました。
RAF-DBとAffectNetデータセットの実験では、ExpLLMは現在の最先端のFERメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-09-04T15:50:16Z) - The Geometry of Categorical and Hierarchical Concepts in Large Language Models [15.126806053878855]
線形表現仮説の形式化をベクトルとして(例:is_animal)特徴を表現するために拡張する方法を示す。
形式化を用いて、概念の階層構造とそれらの表現の幾何学との関係を証明する。
我々はこれらの理論結果をGemmaとLLaMA-3大言語モデルで検証し、WordNetのデータを用いて900以上の階層的な概念の表現を推定する。
論文 参考訳(メタデータ) (2024-06-03T16:34:01Z) - "You Are An Expert Linguistic Annotator": Limits of LLMs as Analyzers of
Abstract Meaning Representation [60.863629647985526]
文意味構造の解析において, GPT-3, ChatGPT, および GPT-4 モデルの成功と限界について検討した。
モデルはAMRの基本形式を確実に再現でき、しばしばコアイベント、引数、修飾子構造をキャプチャできる。
全体としては,これらのモデルではセマンティック構造の側面を捉えることができるが,完全に正確なセマンティック解析や解析をサポートする能力には重要な制限が残されている。
論文 参考訳(メタデータ) (2023-10-26T21:47:59Z) - Can Large Language Models Explain Themselves? A Study of LLM-Generated
Self-Explanations [14.685170467182369]
ChatGPTのような大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて優れた性能を示している。
これらのモデルは、人間の会話に"ヘルプフル"な応答を生成するように調整されているため、応答とともに説明を生成できる。
論文 参考訳(メタデータ) (2023-10-17T12:34:32Z) - Do Large GPT Models Discover Moral Dimensions in Language
Representations? A Topological Study Of Sentence Embeddings [0.7416846035207727]
本稿では,Chat-GPTの基礎言語モデル「脳」における神経活動のトポロジ的構造を考察し,公平性の概念を表す指標として分析する。
まず、社会文学にインスパイアされた公正度尺度を計算し、正当性、必要性、責任など、人間の公正度評価に典型的な影響を及ぼす要因を特定する。
その結果, GPT-3.5に基づく文の埋め込みは, 公平かつ不公平な道徳判断に対応する2つのサブ多様体に分解できることがわかった。
論文 参考訳(メタデータ) (2023-09-17T23:38:39Z) - Instructed to Bias: Instruction-Tuned Language Models Exhibit Emergent Cognitive Bias [57.42417061979399]
近年の研究では、インストラクションチューニング(IT)と人間フィードバック(RLHF)による強化学習によって、大規模言語モデル(LM)の能力が劇的に向上していることが示されている。
本研究では,ITとRLHFがLMの意思決定と推論に与える影響について検討する。
以上の結果から,GPT-3,Mistral,T5ファミリーの各種モデルにおけるこれらのバイアスの存在が示唆された。
論文 参考訳(メタデータ) (2023-08-01T01:39:25Z) - Not wacky vs. definitely wacky: A study of scalar adverbs in pretrained
language models [0.0]
BERT、RoBERTa、GPT-3といった現代の事前訓練された言語モデルは、古典的な静的単語の埋め込みよりも論理的なタスクでより良いパフォーマンスを期待している。
本稿では,BERT,RoBERTa,GPT-2,GPT-3が,これらの共通語に対する一般人的な知識を示す範囲について検討する。
論理的な意味のいくつかの側面を捉えているにもかかわらず、モデルは人間のパフォーマンスにかなり劣っていることが分かりました。
論文 参考訳(メタデータ) (2023-05-25T18:56:26Z) - OPT-R: Exploring the Role of Explanations in Finetuning and Prompting
for Reasoning Skills of Large Language Models [48.412284346337344]
我々はLarge Language Models(LLMs)の推論能力について徹底的な調査を行っている。
本研究は,Open Pretrained Transformers (OPT) の3つの異なるサイズを微調整する。
次に、SUPER-NATURALINSTRUCTIONSベンチマークから引き出された57の領域外タスクについて、全てのモデルを評価する。
論文 参考訳(メタデータ) (2023-05-19T20:58:22Z) - Systematicity in GPT-3's Interpretation of Novel English Noun Compounds [7.039267642892591]
我々は、Levinらの実験データをGPT-3世代と比較し、高い類似性を見出した。
我々は、GPT-3が個々の語彙項目以上のことを推論しているという証拠を見つけることができない。
これらの結果は,大規模言語モデルが潜時的により深い理論を符号化するかどうかを評価する際に,低レベルの分布正則性を制御することの重要性を強調した。
論文 参考訳(メタデータ) (2022-10-18T00:25:24Z) - Few-Shot Semantic Parsing with Language Models Trained On Code [52.23355024995237]
Codexは同等のGPT-3モデルよりもセマンティックパーシングが優れていることがわかった。
GPT-3とは異なり、Codexは意味表現を直接ターゲットとする場合、おそらく意味解析で使われる意味表現がコードと似た構造になっているように、同じように機能する。
論文 参考訳(メタデータ) (2021-12-16T08:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。