論文の概要: Probing Physical Reasoning with Counter-Commonsense Context
- arxiv url: http://arxiv.org/abs/2306.02258v1
- Date: Sun, 4 Jun 2023 04:24:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 19:07:55.822819
- Title: Probing Physical Reasoning with Counter-Commonsense Context
- Title(参考訳): カウンター・コモンセンスコンテキストによる物理推論の探索
- Authors: Kazushi Kondo, Saku Sugawara, Akiko Aizawa
- Abstract要約: 本研究では,物理コモンセンスが文脈化サイズ比較タスクに与える影響について検討する。
このデータセットは、さまざまなコンテキスト下でオブジェクト間のサイズ関係を予測する言語モデルの能力をテストする。
- 参考スコア(独自算出の注目度): 34.8562766828087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we create a CConS (Counter-commonsense Contextual Size
comparison) dataset to investigate how physical commonsense affects the
contextualized size comparison task; the proposed dataset consists of both
contexts that fit physical commonsense and those that do not. This dataset
tests the ability of language models to predict the size relationship between
objects under various contexts generated from our curated noun list and
templates. We measure the ability of several masked language models and
generative models. The results show that while large language models can use
prepositions such as ``in'' and ``into'' in the provided context to infer size
relationships, they fail to use verbs and thus make incorrect judgments led by
their prior physical commonsense.
- Abstract(参考訳): 本研究では,ccons(counter-commonsense context size comparison)データセットを作成し,コンテクストサイズ比較タスクに物理的なコモンセンスがどのように影響するかを検討する。
このデータセットは、キュレートされた名詞リストとテンプレートから生成されたさまざまなコンテキスト下でオブジェクト間のサイズ関係を予測する言語モデルの性能をテストする。
いくつかのマスキング言語モデルと生成モデルの能力を測定する。
その結果, 大規模言語モデルでは, 「in'」や「into'」といった前置詞を用いて, 大きさ関係の推測を行うことができたが, 動詞の使用に失敗し, それまでの身体的常識による誤った判断を下すことができた。
関連論文リスト
- Evaluating Large Language Models on Controlled Generation Tasks [92.64781370921486]
本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。
大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
論文 参考訳(メタデータ) (2023-10-23T03:48:24Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Assessing Linguistic Generalisation in Language Models: A Dataset for
Brazilian Portuguese [4.941630596191806]
ブラジルポルトガル語で開発されたモデルで符号化された言語情報を検査する本質的な評価課題を提案する。
これらのタスクは、異なる言語モデルが文法構造やマルチワード表現に関連する情報を一般化する方法を評価するために設計されている。
論文 参考訳(メタデータ) (2023-05-23T13:49:14Z) - Modelling Commonsense Properties using Pre-Trained Bi-Encoders [40.327695801431375]
概念とその特性をモデル化するための微調整言語モデルの可能性について検討する。
実験結果から,得られたエンコーダにより,より高い精度でコモンセンス特性を予測できることが示唆された。
論文 参考訳(メタデータ) (2022-10-06T09:17:34Z) - Context vs Target Word: Quantifying Biases in Lexical Semantic Datasets [18.754562380068815]
BERTのような最先端のコンテキスト化モデルは、WiCやWSDのようなタスクを使用して、ワード・イン・コンテクストの表現を評価する。
本研究は,主要な文脈的語彙意味タスクにおいて,文脈-単語間相互作用を検証した最初の定量的分析(探索ベースラインを用いた)を提案する。
論文 参考訳(メタデータ) (2021-12-13T15:37:05Z) - All Bark and No Bite: Rogue Dimensions in Transformer Language Models
Obscure Representational Quality [5.203329540700176]
我々は、文脈化された言語モデルに対するそのような尺度の有益性に疑問を投げかける。
少数のローグ次元(しばしば1-3)が類似度尺度を支配していることがわかった。
論文 参考訳(メタデータ) (2021-09-09T16:45:15Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。