Fugu-MT 論文翻訳(概要): Do language models have coherent mental models of everyday things?

論文の概要: Do language models have coherent mental models of everyday things?

arxiv url: http://arxiv.org/abs/2212.10029v2
Date: Wed, 24 May 2023 20:40:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 23:19:41.556038
Title: Do language models have coherent mental models of everyday things?
Title（参考訳）: 言語モデルは日常のコヒーレントな精神モデルを持っているか?
Authors: Yuling Gu, Bhavana Dalvi Mishra, Peter Clark
Abstract要約: 毎日の物事を"卵"のように考えるとき、彼らは通常、彼らに関連する精神的なイメージを持っています。言語モデルにはこのような日常のコヒーレントなイメージがありますか? GPT-3 や Macaw のような最先端の事前学習言語モデル (LM) には,これらのエンティティに関する知識が断片化している。日常の心的モデルにおいて,より一貫性のある,正確な部分を生成するために,これらのLMに対する簡単な拡張を提案する。
参考スコア（独自算出の注目度）: 20.879514692027524
License: http://creativecommons.org/licenses/by/4.0/
Abstract: When people think of everyday things like an "egg," they typically have a mental image associated with it. This commonsense knowledge helps us understand how these everyday things work and how to interact with them. For example, when someone tries to make a fried egg, they know that it has a shell and that it can be cracked open to reveal the egg white and yolk inside. However, if a system does not have a coherent picture of such everyday things, thinking that the egg yolk surrounds the shell, then it might have to resort to ridiculous approaches such as trying to scrape the egg yolk off the shell into the pan. Do language models have a coherent picture of such everyday things? To investigate this, we propose a benchmark dataset consisting of 100 everyday things, their parts, and the relationships between these parts. We observe that state-of-the-art pre-trained language models (LMs) like GPT-3 and Macaw have fragments of knowledge about these entities, but they fail to produce consistent parts mental models. We propose a simple extension to these LMs where we apply a constraint satisfaction layer on top of raw predictions from LMs to produce more consistent and accurate parts mental models of everyday things.
Abstract（参考訳）: 毎日の物事を"卵"のように考えるとき、彼らは通常、それに関連する精神的イメージを持っています。この常識的な知識は、日々の物事がどのように機能し、どのように相互作用するかを理解するのに役立ちます。例えば、誰かがフライドエッグを作ろうとすると、それは殻を持ち、中身の卵白と黄身を明らかにするために裂けることを知っている。しかし、もしシステムが、卵黄が貝殻を取り囲んでいると考え、そのような日常的なものの連帯図を持っていなければ、卵黄を貝殻から鍋に削り取ろうとするようなばかげたアプローチを使わなければならないかもしれない。言語モデルにはこのような日常的なイメージがありますか? そこで本研究では,100の日常的なもの,その部分,およびそれらの関係性からなるベンチマークデータセットを提案する。 GPT-3 や Macaw のような最先端の事前訓練言語モデル (LM) は,これらの実体に関する知識を断片的に持っているが,一貫した部分のメンタルモデルの生成には失敗している。そこで,本論文では,制約満足度層をLMの生の予測の上に適用し,より一貫性のある,より正確な部分のメンタルモデルを作成する。

関連論文リスト

Movie Facts and Fibs (MF$^2$): A Benchmark for Long Movie Understanding [97.05584099530226]
MF$2$は、モデルがフル長の映画から重要な物語情報を理解し、統合し、思い出せるかどうかを評価するための新しいベンチマークである。各ペアについて、モデルは真と偽のクレームの両方を正しく識別する必要がある。実験の結果、オープンウェイトモデルとクローズド・オブ・ザ・アーティファクトモデルの両方が人間のパフォーマンスにかなり劣っていることがわかった。
論文参考訳（メタデータ） (2025-06-06T17:58:36Z)
LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models [59.0256377330646]
Lensは3.4Kの現代画像と8つのタスクと12の日次シナリオをカバーする60K以上の人間による質問のベンチマークである。このデータセットは本質的に、基本的な知覚から構成的推論に至るまで、画像不変のプロンプトを処理するためのMLLMの評価をサポートする。我々は,Qwen2.5-VL-72B,InternVL3-78B,GPT-4oおよび2つの推論モデルQVQ-72B-previewとKim-VLなどの15以上のフロンティアMLLMを評価する。
論文参考訳（メタデータ） (2025-05-21T15:06:59Z)
Vision-Language Models Do Not Understand Negation [50.27667000027403]
NegBenchは、イメージ、ビデオ、医療データセットにまたがる18のタスクのバリエーションと79kのサンプルに対する否定的理解を評価するために設計されたベンチマークである。提案手法は, 否定的クエリに対するリコールが10%増加し, 否定的キャプションによる複数質問に対する精度が40%向上することを示す。
論文参考訳（メタデータ） (2025-01-16T09:55:42Z)
SimpleToM: Exposing the Gap between Explicit ToM Inference and Implicit ToM Application in LLMs [72.06808538971487]
大規模言語モデル(LLM)が行動予測に「心の理論」(ToM)を暗黙的に適用できるかどうかを検証する。 ToM推論の異なる程度をテストする3つの質問を含む新しいデータセットSimpleTomを作成します。私たちの知る限り、SimpleToMは、現実的なシナリオにおけるメンタルステートの知識を必要とする下流の推論を探求する最初のデータセットです。
論文参考訳（メタデータ） (2024-10-17T15:15:00Z)
Are Large Language Models Consistent over Value-laden Questions? [45.37331974356809]
大きな言語モデル(LLM)は、調査回答を特定の値にバイアスしているように見える。価値の一貫性は、パラフレーズ、ユースケース、翻訳、トピック内での回答の類似性として定義します。従来の作業とは異なり、モデルはパラフレーズ、ユースケース、翻訳、トピック内で比較的一貫性がある。
論文参考訳（メタデータ） (2024-07-03T10:53:54Z)
Cognitive Dissonance: Why Do Language Model Outputs Disagree with Internal Representations of Truthfulness? [53.98071556805525]
ニューラルネットワークモデル(LM)は、事実文の真偽を評価するために用いられる。それらは、文の確率を問い合わせたり、真理の表現を内部で探したりすることができる。過去の研究によると、これらの2つの手順は時折不一致であり、プローブはLM出力よりも正確である。この結果、一部の研究者は、LMが非協力的なコミュニケーション意図を「十分」あるいは他の方法でコード化していると結論付けている。
論文参考訳（メタデータ） (2023-11-27T18:59:14Z)
What's "up" with vision-language models? Investigating their struggle with spatial reasoning [76.2406963762722]
3つの新しいコーパスは基本空間関係のモデル理解を定量化する。我々は18の視覚言語(VL)モデルを評価し、全てが不十分であることが判明した。私たちはこの驚くべき行動の原因を研究することで結論付ける。
論文参考訳（メタデータ） (2023-10-30T17:50:15Z)
What does the Failure to Reason with "Respectively" in Zero/Few-Shot Settings Tell Us about Language Models? [5.431715810374623]
言語モデル (LM) が, 統語論的, 常識的, 常識的知識の2つの視点から, それぞれの読解に対してどのような意味を持つかを示す。微調整されたNLIモデルは、明確な監督なしに、そのような読解の理解に苦慮していることを示す。
論文参考訳（メタデータ） (2023-05-31T06:45:09Z)
Training Priors Predict Text-To-Image Model Performance [23.198469575245596]
本稿では,「宇宙飛行士」,「ライド」,「馬」などの刺激を助長する主観的主観的対象(SVO)三脚について考察する。トレーニングデータにSVOトリアードが現れる頻度が高ければ多いほど、モデルがそのトリアードに整合した画像を生成することができる。
論文参考訳（メタデータ） (2023-05-23T04:54:26Z)
Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文参考訳（メタデータ） (2022-12-07T18:17:56Z)
DREAM: Uncovering Mental Models behind Language Models [15.71233907204059]
DREAMは、状況に関する質問を入力として受け取り、状況を解明するメンタルモデルを生成するモデルである。既存のNLP資源から遠ざかって、社会的常識を継承する。 DREAMによって生成されたメンタルモデルは、状況的QAタスクのための追加のコンテキストとして使用できる。
論文参考訳（メタデータ） (2021-12-16T06:22:47Z)
PIGLeT: Language Grounding Through Neuro-Symbolic Interaction in a 3D World [86.21137454228848]
我々はPIGLeTを物理力学モデルと別言語モデルに分類する。 PIGLeTは文を読み、次に何が起こるか神経的にシミュレートし、その結果を文字通りの記号表現を通して伝達する。 80%以上の英語の文から「次に何が起こるか」を正確に予測することができ、100倍以上のテキスト・テキスト・アプローチを10%以上上回っている。
論文参考訳（メタデータ） (2021-06-01T02:32:12Z)
How Can We Know When Language Models Know? On the Calibration of Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか? 我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文参考訳（メタデータ） (2020-12-02T03:53:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。