論文の概要: POSQA: Probe the World Models of LLMs with Size Comparisons
- arxiv url: http://arxiv.org/abs/2310.13394v1
- Date: Fri, 20 Oct 2023 10:05:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 23:27:16.964263
- Title: POSQA: Probe the World Models of LLMs with Size Comparisons
- Title(参考訳): posqa: llmの世界モデルをサイズ比較で調査する
- Authors: Chang Shu, Jiuzhou Han, Fangyu Liu, Ehsan Shareghi, Nigel Collier
- Abstract要約: 身体的言語理解は、言語理解が単に脳の精神的処理の問題ではないことを強調している。
LLM(Large Language Models)の爆発的成長と、私たちの日常生活にすでに広く存在していることから、現実の理解を検証する必要性が高まっている。
- 参考スコア(独自算出の注目度): 38.30479784257936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied language comprehension emphasizes that language understanding is not
solely a matter of mental processing in the brain but also involves
interactions with the physical and social environment. With the explosive
growth of Large Language Models (LLMs) and their already ubiquitous presence in
our daily lives, it is becoming increasingly necessary to verify their
real-world understanding. Inspired by cognitive theories, we propose POSQA: a
Physical Object Size Question Answering dataset with simple size comparison
questions to examine the extremity and analyze the potential mechanisms of the
embodied comprehension of the latest LLMs.
We show that even the largest LLMs today perform poorly under the zero-shot
setting. We then push their limits with advanced prompting techniques and
external knowledge augmentation. Furthermore, we investigate whether their
real-world comprehension primarily derives from contextual information or
internal weights and analyse the impact of prompt formats and report bias of
different objects. Our results show that real-world understanding that LLMs
shaped from textual data can be vulnerable to deception and confusion by the
surface form of prompts, which makes it less aligned with human behaviours.
- Abstract(参考訳): 具体化された言語理解は、言語理解は脳における精神的処理の問題だけでなく、身体的および社会的環境との相互作用も含んでいることを強調する。
LLM(Large Language Models)の爆発的成長と、私たちの日常生活にすでに広く存在していることから、現実の理解を検証する必要性が高まっている。
認知理論にインスパイアされたPOSQA: 単純なサイズ比較質問付き物理オブジェクトサイズ質問回答データセットを提案し, 最新のLCMの具体的理解のメカニズムを解明する。
現在、最大のLLMでさえゼロショット設定では性能が良くないことを示す。
そして、高度なプロンプト技術と外部知識の強化で限界を押し上げます。
さらに,実世界の理解が主として文脈情報や内的重みから来ているかを調査し,プロンプト形式の影響を分析し,異なるオブジェクトのバイアスを報告する。
以上の結果から,LLMがテキストデータから形成されることは,プロンプトの表面形態による誤認や混乱に対して脆弱であり,人間の行動との整合性が低下することが示唆された。
関連論文リスト
- Information Anxiety in Large Language Models [21.574677910096735]
大規模言語モデル(LLM)は知識リポジトリとして高いパフォーマンスを示している。
本研究は, LLMの内部推論と検索機構を包括的に分析することにより, さらなる調査を行う。
我々の研究は、エンティティの人気の影響、クエリの定式化における語彙変化に対するモデルの感度、隠された状態表現の進行という3つの重要な側面に焦点を当てている。
論文 参考訳(メタデータ) (2024-11-16T14:28:33Z) - Narrative Analysis of True Crime Podcasts With Knowledge Graph-Augmented Large Language Models [8.78598447041169]
大きな言語モデル(LLM)は、複雑な物語の弧や矛盾する情報を含む物語といまだに苦労している。
最近の研究は、外部知識ベースで強化されたLLMが、結果の精度と解釈可能性を向上させることを示唆している。
本研究では,実際のポッドキャストデータの理解における知識グラフ(KG)の適用性について検討する。
論文 参考訳(メタデータ) (2024-11-01T21:49:00Z) - A Perspective on Large Language Models, Intelligent Machines, and Knowledge Acquisition [0.6138671548064355]
大言語モデル(LLM)は「知識」を生成できることで知られている。
しかし、抽象概念と推論を理解するためのLLMと人間の能力の間には大きなギャップがある。
我々はこれらの問題を、人間の知識獲得とチューリングテストの哲学的な文脈で論じる。
論文 参考訳(メタデータ) (2024-08-13T03:25:49Z) - Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。
質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。
我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文 参考訳(メタデータ) (2024-05-26T22:30:29Z) - Can large language models understand uncommon meanings of common words? [30.527834781076546]
大規模言語モデル(LLM)は、様々な自然言語理解(NLU)タスクに大きく進歩している。
しかし、LLMがオウムなのか、本当の意味で世界を理解するのかは、広く認知されている試験機構が欠如している。
本稿では,新しい評価指標を用いたレキシカルセマンティックデータセットの革新的構築について述べる。
論文 参考訳(メタデータ) (2024-05-09T12:58:22Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。