論文の概要: WorldSense: A Synthetic Benchmark for Grounded Reasoning in Large
Language Models
- arxiv url: http://arxiv.org/abs/2311.15930v1
- Date: Mon, 27 Nov 2023 15:38:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 14:41:35.274881
- Title: WorldSense: A Synthetic Benchmark for Grounded Reasoning in Large
Language Models
- Title(参考訳): WorldSense: 大規模言語モデルにおけるグラウンドド推論のための合成ベンチマーク
- Authors: Youssef Benchekroun, Megi Dervishi, Mark Ibrahim, Jean-Baptiste Gaya,
Xavier Martinet, Gr\'egoire Mialon, Thomas Scialom, Emmanuel Dupoux, Dieuwke
Hupkes, Pascal Vincent
- Abstract要約: 我々は3つの最先端チャットLLM(GPT3.5、GPT4、Llama2-chat)上でベンチマークを実行する。
これらのモデルが3つのオブジェクトでもエラーを発生させることを示す。
エラーは、チェーン・オブ・コンテクストのプロンプトやイン・コンテクストの学習でも継続する。
- 参考スコア(独自算出の注目度): 35.088946378980914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose WorldSense, a benchmark designed to assess the extent to which
LLMs are consistently able to sustain tacit world models, by testing how they
draw simple inferences from descriptions of simple arrangements of entities.
Worldsense is a synthetic benchmark with three problem types, each with their
own trivial control, which explicitly avoids bias by decorrelating the abstract
structure of problems from the vocabulary and expressions, and by decorrelating
all problem subparts with the correct response. We run our benchmark on three
state-of-the-art chat-LLMs (GPT3.5, GPT4 and Llama2-chat) and show that these
models make errors even with as few as three objects. Furthermore, they have
quite heavy response biases, preferring certain responses irrespective of the
question. Errors persist even with chain-of-thought prompting and in-context
learning. Lastly, we show that while finetuning on similar problems does result
in substantial improvements -- within- and out-of-distribution -- the finetuned
models do not generalise beyond a constraint problem space.
- Abstract(参考訳): 我々は、エンティティの単純なアレンジメントの記述から単純な推論をいかに引き出すかをテストすることによって、llmが一貫してtacitの世界モデルを維持することができる程度を評価するために設計されたベンチマークであるworldsenseを提案する。
worldsenseは3つの問題タイプを持つ合成ベンチマークであり、それぞれが自明な制御を持ち、語彙と表現から問題の抽象構造を分離し、すべての問題部分と正しい応答を分離することで、バイアスを明示的に回避する。
我々は,最先端の3つのチャット-LLM(GPT3.5,GPT4,Llama2-chat)上でベンチマークを行い,これらのモデルが3つのオブジェクトでもエラーを発生させることを示す。
さらに、それらは非常に重い反応バイアスを持ち、質問に関係なく特定の反応を好む。
エラーは、チェーン・オブ・シークレットのプロンプトやコンテキスト内学習でも継続する。
最後に、同様の問題に対する微調整は、内的および外的という実質的な改善をもたらすが、微調整されたモデルは制約問題空間を超えて一般化しないことを示す。
関連論文リスト
- Frontier Language Models are not Robust to Adversarial Arithmetic, or
"What do I need to say so you agree 2+2=5? [88.59136033348378]
言語モデルアライメントのための単純なテストベッドを提供する逆算術の問題を考察する。
この問題は自然言語で表される算術的な問題から成り、質問が完了する前に任意の逆文字列を挿入する。
これらの攻撃に対して、強化学習やエージェント構成ループを通じて、モデルを部分的に強化できることが示される。
論文 参考訳(メタデータ) (2023-11-08T19:07:10Z) - Reliability Check: An Analysis of GPT-3's Response to Sensitive Topics
and Prompt Wording [0.0]
GPT-3を混乱させるものは何か、モデルが特定のセンシティブなトピックにどう反応するか、そしてモデル応答にどのような影響があるのかを解析する。
GPT-3は明らかな陰謀やステレオタイプと正しく一致しないが、一般的な誤解や論争では誤りを犯す。
モデル応答はプロンプトや設定に不整合であり、GPT-3の信頼性の欠如を強調している。
論文 参考訳(メタデータ) (2023-06-09T19:07:31Z) - On Reality and the Limits of Language Data: Aligning LLMs with Human
Norms [10.02997544238235]
大規模言語モデル (LLMs) は、実践的な応用のために、膨大な自然言語データの言語関連性を利用する。
我々は,この問題を,新規かつ厳密に制御された推論テスト(ART)を用いて探求し,人間の規範とGPT-3のバージョンを比較した。
我々の研究は、データや弱点から直接学習できる常識関係モデルのカテゴリに注目した。
論文 参考訳(メタデータ) (2022-08-25T10:21:23Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z) - ANLIzing the Adversarial Natural Language Inference Dataset [46.7480191735164]
我々は最近導入された大規模ヒューマン・アンド・モデル・イン・ザ・ループ自然言語推論データセットであるAdversarial NLI(ANLI)の詳細な誤差解析を行う。
本稿では,金の分類ラベルに責任を負う推論のさまざまな側面の詳細なアノテーションスキームを提案し,それをANLI開発セットの3つすべてに手書きする。
論文 参考訳(メタデータ) (2020-10-24T01:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。