論文の概要: Do language models have coherent mental models of everyday things?
- arxiv url: http://arxiv.org/abs/2212.10029v3
- Date: Thu, 8 Jun 2023 17:27:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 19:59:42.186025
- Title: Do language models have coherent mental models of everyday things?
- Title(参考訳): 言語モデルは日常のコヒーレントな精神モデルを持っているか?
- Authors: Yuling Gu, Bhavana Dalvi Mishra, Peter Clark
- Abstract要約: GPT-3 や Macaw のような最先端の事前訓練型言語モデル (LM) は,これらの日常的なことに関する知識を断片的に持っている。
本稿では,LMの生予測の上に制約満足層を追加して,コモンセンス制約を適用した拡張を提案する。
- 参考スコア(独自算出の注目度): 20.879514692027524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When people think of everyday things like an egg, they typically have a
mental image associated with it. This allows them to correctly judge, for
example, that "the yolk surrounds the shell" is a false statement. Do language
models similarly have a coherent picture of such everyday things? To
investigate this, we propose a benchmark dataset consisting of 100 everyday
things, their parts, and the relationships between these parts, expressed as
11,720 "X relation Y?" true/false questions. Using these questions as probes,
we observe that state-of-the-art pre-trained language models (LMs) like GPT-3
and Macaw have fragments of knowledge about these everyday things, but do not
have fully coherent "parts mental models" (54-59% accurate, 19-43% conditional
constraint violation). We propose an extension where we add a constraint
satisfaction layer on top of the LM's raw predictions to apply commonsense
constraints. As well as removing inconsistencies, we find that this also
significantly improves accuracy (by 16-20%), suggesting how the incoherence of
the LM's pictures of everyday things can be significantly reduced.
- Abstract(参考訳): 卵のような日常的なものを考えるとき、彼らは通常、それに関連する精神的イメージを持っている。
これにより、例えば「黄身が貝殻を囲んでいる」という誤った主張を正しく判断することができる。
言語モデルも同様に、このような日常のコヒーレントなイメージを持っていますか?
そこで本研究では,100の日常物,その部分,およびこれらの部分間の関係を11,720 "X Relation Y?" と表現したベンチマークデータセットを提案する。
GPT-3 や Macaw のような最先端の事前学習言語モデル (LM) は,これらの日常的な事柄に関する知識を断片的に持っているが,完全コヒーレントな "部分メンタルモデル" (54-59%,条件付き制約違反 19-43%) は存在しない。
我々は,共通性制約を適用するために,lmの生予測の上に制約満足度層を付加する拡張を提案する。
矛盾を取り除くだけでなく、これは精度(16~20%)を大幅に向上させ、lmの日常的なモノの写真の一貫性がいかに著しく低下するかを示唆する。
関連論文リスト
- Vision-Language Models Do Not Understand Negation [50.27667000027403]
NegBenchは、イメージ、ビデオ、医療データセットにまたがる18のタスクのバリエーションと79kのサンプルに対する否定的理解を評価するために設計されたベンチマークである。
提案手法は, 否定的クエリに対するリコールが10%増加し, 否定的キャプションによる複数質問に対する精度が40%向上することを示す。
論文 参考訳(メタデータ) (2025-01-16T09:55:42Z) - SimpleToM: Exposing the Gap between Explicit ToM Inference and Implicit ToM Application in LLMs [72.06808538971487]
大規模言語モデル(LLM)が行動予測に「心の理論」(ToM)を暗黙的に適用できるかどうかを検証する。
ToM推論の異なる程度をテストする3つの質問を含む新しいデータセットSimpleTomを作成します。
私たちの知る限り、SimpleToMは、現実的なシナリオにおけるメンタルステートの知識を必要とする下流の推論を探求する最初のデータセットです。
論文 参考訳(メタデータ) (2024-10-17T15:15:00Z) - Are Large Language Models Consistent over Value-laden Questions? [45.37331974356809]
大きな言語モデル(LLM)は、調査回答を特定の値にバイアスしているように見える。
価値の一貫性は、パラフレーズ、ユースケース、翻訳、トピック内での回答の類似性として定義します。
従来の作業とは異なり、モデルはパラフレーズ、ユースケース、翻訳、トピック内で比較的一貫性がある。
論文 参考訳(メタデータ) (2024-07-03T10:53:54Z) - Cognitive Dissonance: Why Do Language Model Outputs Disagree with
Internal Representations of Truthfulness? [53.98071556805525]
ニューラルネットワークモデル(LM)は、事実文の真偽を評価するために用いられる。
それらは、文の確率を問い合わせたり、真理の表現を内部で探したりすることができる。
過去の研究によると、これらの2つの手順は時折不一致であり、プローブはLM出力よりも正確である。
この結果、一部の研究者は、LMが非協力的なコミュニケーション意図を「十分」あるいは他の方法でコード化していると結論付けている。
論文 参考訳(メタデータ) (2023-11-27T18:59:14Z) - What's "up" with vision-language models? Investigating their struggle
with spatial reasoning [76.2406963762722]
3つの新しいコーパスは基本空間関係のモデル理解を定量化する。
我々は18の視覚言語(VL)モデルを評価し、全てが不十分であることが判明した。
私たちはこの驚くべき行動の原因を研究することで結論付ける。
論文 参考訳(メタデータ) (2023-10-30T17:50:15Z) - What does the Failure to Reason with "Respectively" in Zero/Few-Shot
Settings Tell Us about Language Models? [5.431715810374623]
言語モデル (LM) が, 統語論的, 常識的, 常識的知識の2つの視点から, それぞれの読解に対してどのような意味を持つかを示す。
微調整されたNLIモデルは、明確な監督なしに、そのような読解の理解に苦慮していることを示す。
論文 参考訳(メタデータ) (2023-05-31T06:45:09Z) - Training Priors Predict Text-To-Image Model Performance [23.198469575245596]
本稿では,「宇宙飛行士」,「ライド」,「馬」などの刺激を助長する主観的主観的対象(SVO)三脚について考察する。
トレーニングデータにSVOトリアードが現れる頻度が高ければ多いほど、モデルがそのトリアードに整合した画像を生成することができる。
論文 参考訳(メタデータ) (2023-05-23T04:54:26Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - DREAM: Uncovering Mental Models behind Language Models [15.71233907204059]
DREAMは、状況に関する質問を入力として受け取り、状況を解明するメンタルモデルを生成するモデルである。
既存のNLP資源から遠ざかって、社会的常識を継承する。
DREAMによって生成されたメンタルモデルは、状況的QAタスクのための追加のコンテキストとして使用できる。
論文 参考訳(メタデータ) (2021-12-16T06:22:47Z) - PIGLeT: Language Grounding Through Neuro-Symbolic Interaction in a 3D
World [86.21137454228848]
我々はPIGLeTを物理力学モデルと別言語モデルに分類する。
PIGLeTは文を読み、次に何が起こるか神経的にシミュレートし、その結果を文字通りの記号表現を通して伝達する。
80%以上の英語の文から「次に何が起こるか」を正確に予測することができ、100倍以上のテキスト・テキスト・アプローチを10%以上上回っている。
論文 参考訳(メタデータ) (2021-06-01T02:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。