論文の概要: ReCOGS: How Incidental Details of a Logical Form Overshadow an
Evaluation of Semantic Interpretation
- arxiv url: http://arxiv.org/abs/2303.13716v2
- Date: Tue, 23 Jan 2024 21:52:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 18:06:46.253022
- Title: ReCOGS: How Incidental Details of a Logical Form Overshadow an
Evaluation of Semantic Interpretation
- Title(参考訳): ReCOGS:セマンティック解釈の評価における論理形式の詳細について
- Authors: Zhengxuan Wu, Christopher D. Manning, Christopher Potts
- Abstract要約: 合成一般化ベンチマークCOGSの修正版を提案する。
本結果は,構成一般化とベンチマークタスク設計の重要性を再確認するものである。
- 参考スコア(独自算出の注目度): 63.33465936588327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compositional generalization benchmarks for semantic parsing seek to assess
whether models can accurately compute meanings for novel sentences, but
operationalize this in terms of logical form (LF) prediction. This raises the
concern that semantically irrelevant details of the chosen LFs could shape
model performance. We argue that this concern is realized for the COGS
benchmark. COGS poses generalization splits that appear impossible for
present-day models, which could be taken as an indictment of those models.
However, we show that the negative results trace to incidental features of COGS
LFs. Converting these LFs to semantically equivalent ones and factoring out
capabilities unrelated to semantic interpretation, we find that even baseline
models get traction. A recent variable-free translation of COGS LFs suggests
similar conclusions, but we observe this format is not semantically equivalent;
it is incapable of accurately representing some COGS meanings. These findings
inform our proposal for ReCOGS, a modified version of COGS that comes closer to
assessing the target semantic capabilities while remaining very challenging.
Overall, our results reaffirm the importance of compositional generalization
and careful benchmark task design.
- Abstract(参考訳): 意味解析のための構成一般化ベンチマークは、モデルが新しい文の意味を正確に計算できるかどうかを評価するが、論理形式(LF)予測の観点からこれを運用する。
これにより、選択されたLFの意味的に無関係な詳細がモデルのパフォーマンスを形作るという懸念が持ち上がる。
我々はこの懸念がCOGSベンチマークで実現されていると論じる。
COGSは、現在のモデルでは不可能と思われる一般化分割を呈し、これらのモデルの起訴と見なすことができる。
しかし, COGS LFs の偶発的特徴に負の相関がみられた。
これらのLFを意味論的に等価なものに変換し、意味論的解釈とは無関係な能力を分解すると、ベースラインモデルでさえ牽引される。
近年の COGS LF の変数自由翻訳では同様の結論が示唆されているが,この形式は意味論的に等価ではなく,COGS の意味を正確に表現することはできない。
これらの結果から,COGSの改良版であるReCOGSの提案が示唆された。
全体として,構成一般化と注意深いベンチマークタスク設計の重要性を再確認した。
関連論文リスト
- CoGS: Model Agnostic Causality Constrained Counterfactual Explanations using goal-directed ASP [1.5749416770494706]
CoGSはモデルに依存しないフレームワークであり、分類モデルの反実的な説明を生成することができる。
CoGSは、望ましい結果を達成するために必要な変更について、解釈可能かつ実行可能な説明を提供する。
論文 参考訳(メタデータ) (2024-10-30T00:43:01Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - Pragmatic Reasoning Unlocks Quantifier Semantics for Foundation Models [22.757306452760112]
百科事典の百科事典では,人称注釈付き一般化量化器のクラウドソーシングデータセットQuReを紹介した。
自然言語推論とRational Speech Actsフレームワークを組み合わせたフレームワークであるPreSQUEを用いて,言語モデルにおける量化器の理解について検討する。
論文 参考訳(メタデータ) (2023-11-08T13:00:06Z) - SLOG: A Structural Generalization Benchmark for Semantic Parsing [68.19511282584304]
合成一般化ベンチマークの目的は、モデルがいかにして新しい複雑な言語表現に一般化するかを評価することである。
既存のベンチマークは、しばしば語彙一般化に焦点を当て、訓練に精通した構文構造における新しい語彙項目の解釈は、しばしば不足している。
SLOGは,COGSを拡張したセマンティック解析データセットである。
論文 参考訳(メタデータ) (2023-10-23T15:39:09Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z) - Language model acceptability judgements are not always robust to context [30.868765627701457]
目標構文評価における言語モデルの性能の安定性について検討する。
モデル判断は、ランダムにサンプル化された言語コンテキストに置かれる場合、一般的には堅牢である。
これらのモデル性能の変化は、コンテキストとテスト入力にマッチする単純な特徴によって説明できないことを示す。
論文 参考訳(メタデータ) (2022-12-18T00:11:06Z) - Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Closed-Form Expressions for Global and Local Interpretation of Tsetlin
Machines with Applications to Explaining High-Dimensional Data [7.05622249909585]
TMモデルが特定の予測を行う理由(局所的解釈可能性)を理解するためのクローズドフォーム表現を提案する。
また、連続した特徴に対する特徴値範囲の重要性を測定するための式も導入する。
分類と回帰については,XGBoost, Explainable Boosting Machines, Neural Additive Modelsと比較し, SHAPとの対応, および競合予測精度を示す。
論文 参考訳(メタデータ) (2020-07-27T21:47:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。