論文の概要: The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding
- arxiv url: http://arxiv.org/abs/2502.08946v1
- Date: Thu, 13 Feb 2025 04:00:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:51:08.385659
- Title: The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding
- Title(参考訳): LLM肩の確率的パロット : 身体的概念理解の要約的評価
- Authors: Mo Yu, Lemao Liu, Junjie Wu, Tsz Ting Chung, Shunchi Zhang, Jiangnan Li, Dit-Yan Yeung, Jie Zhou,
- Abstract要約: 本稿では、慎重に設計された物理概念理解タスクであるPhysorCoについて要約評価を行う。
我々のタスクは、物理的現象を抽象的に記述するグリッド形式入力の使用によって問題を緩和する。
1)GP-4oを含む最先端のLLM, 40%遅れの遅れ, 2) グリッドタスクで失敗するとオウム, o1 現象が LLM に存在するが, 自然言語で同じ概念を記述し, 認識することができる。
- 参考スコア(独自算出の注目度): 65.28200190598082
- License:
- Abstract: In a systematic way, we investigate a widely asked question: Do LLMs really understand what they say?, which relates to the more familiar term Stochastic Parrot. To this end, we propose a summative assessment over a carefully designed physical concept understanding task, PhysiCo. Our task alleviates the memorization issue via the usage of grid-format inputs that abstractly describe physical phenomena. The grids represents varying levels of understanding, from the core phenomenon, application examples to analogies to other abstract patterns in the grid world. A comprehensive study on our task demonstrates: (1) state-of-the-art LLMs, including GPT-4o, o1 and Gemini 2.0 flash thinking, lag behind humans by ~40%; (2) the stochastic parrot phenomenon is present in LLMs, as they fail on our grid task but can describe and recognize the same concepts well in natural language; (3) our task challenges the LLMs due to intrinsic difficulties rather than the unfamiliar grid format, as in-context learning and fine-tuning on same formatted data added little to their performance.
- Abstract(参考訳): LLMは自分たちの言うことを本当に理解していますか?
これはStochastic Parrotというより親しみやすい用語に関連している。
この目的のために,慎重に設計された物理概念理解タスクであるPhysorCoについて,要約的評価を提案する。
本課題は,物理現象を抽象的に記述したグリッド形式入力を用いることで,記憶の問題を緩和する。
グリッドは、コア現象から、アプリケーションの例から、グリッド世界の他の抽象パターンへの類似まで、さまざまなレベルの理解を表現します。
1) GPT-4o, o1, Gemini 2.0フラッシュ思考を含む最先端のLCMは, 約40%の遅延, (2) 格子タスクでは失敗するが, 自然言語では同じ概念をうまく記述・認識できるため, LLMには確率的なオウム現象が存在する, 3) 言語では, 理解できないグリッドフォーマットよりも,本質的な難しさによるLCMへの挑戦, テキスト内学習や同じフォーマットデータへの微調整など,そのパフォーマンスにはほとんど寄与しない。
関連論文リスト
- Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs? [48.41029452721923]
視覚言語モデル(VLM)は、視覚的質問応答(VQA)や画像キャプションといったタスクにおいて印象的である。
画像に多段階推論を適用する能力は、モダリティの不均衡や脆さの知覚を引き起こす。
論文 参考訳(メタデータ) (2025-01-05T21:36:38Z) - Representation in large language models [0.0]
大規模言語モデルの振る舞いは、部分的に表現に基づく情報処理によって引き起こされていると私は主張する。
これらの表現を調査し、説明を開発するためのテクニックについて説明する。
論文 参考訳(メタデータ) (2025-01-01T16:19:48Z) - Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。
この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。
提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文 参考訳(メタデータ) (2024-12-24T16:38:04Z) - Knowledge Graphs, Large Language Models, and Hallucinations: An NLP Perspective [5.769786334333616]
大規模言語モデル(LLM)は、自動テキスト生成や質問応答などを含む自然言語処理(NLP)ベースのアプリケーションに革命をもたらした。
幻覚では、モデルがもっともらしい音を出すが、実際には正しくない反応を生成する。
本稿では,現状のデータセットやベンチマーク,知識統合や幻覚評価の手法など,これらのオープンな課題について論じる。
論文 参考訳(メタデータ) (2024-11-21T16:09:05Z) - Meaningful Learning: Enhancing Abstract Reasoning in Large Language Models via Generic Fact Guidance [38.49506722997423]
大規模言語モデル(LLM)は、様々な推論シナリオにまたがる優れたパフォーマンスと強力な説明可能性を開発した。
LLMは、一貫した正確な答えを提供するために、一般的な事実を抽象化し、適用するのに苦労することが多い。
このことが、LSMが真に推論しているのか、単に記憶しているだけなのか、という激しい議論を巻き起こした。
論文 参考訳(メタデータ) (2024-03-14T04:06:13Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - POSQA: Probe the World Models of LLMs with Size Comparisons [38.30479784257936]
身体的言語理解は、言語理解が単に脳の精神的処理の問題ではないことを強調している。
LLM(Large Language Models)の爆発的成長と、私たちの日常生活にすでに広く存在していることから、現実の理解を検証する必要性が高まっている。
論文 参考訳(メタデータ) (2023-10-20T10:05:01Z) - MAML and ANIL Provably Learn Representations [60.17417686153103]
我々は,MAMLとANILという2つの有名なメタ学習手法が,与えられたタスク群間の共通表現を学習可能であることを証明した。
具体的には、よく知られたマルチタスク線形表現学習環境では、指数関数的に高速な速度で接地トラス表現を復元することができる。
解析の結果,MAMLとANILがベースとなる表現を回復させる駆動力は,モデルの最終層に適応していることが判明した。
論文 参考訳(メタデータ) (2022-02-07T19:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。