Fugu-MT 論文翻訳(概要): WorldSense: A Synthetic Benchmark for Grounded Reasoning in Large Language Models

論文の概要: WorldSense: A Synthetic Benchmark for Grounded Reasoning in Large Language Models

arxiv url: http://arxiv.org/abs/2311.15930v1
Date: Mon, 27 Nov 2023 15:38:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-28 14:41:35.274881
Title: WorldSense: A Synthetic Benchmark for Grounded Reasoning in Large Language Models
Title（参考訳）: WorldSense: 大規模言語モデルにおけるグラウンドド推論のための合成ベンチマーク
Authors: Youssef Benchekroun, Megi Dervishi, Mark Ibrahim, Jean-Baptiste Gaya, Xavier Martinet, Gr\'egoire Mialon, Thomas Scialom, Emmanuel Dupoux, Dieuwke Hupkes, Pascal Vincent
Abstract要約: 我々は3つの最先端チャットLLM(GPT3.5、GPT4、Llama2-chat)上でベンチマークを実行する。これらのモデルが3つのオブジェクトでもエラーを発生させることを示す。エラーは、チェーン・オブ・コンテクストのプロンプトやイン・コンテクストの学習でも継続する。
参考スコア（独自算出の注目度）: 35.088946378980914
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose WorldSense, a benchmark designed to assess the extent to which LLMs are consistently able to sustain tacit world models, by testing how they draw simple inferences from descriptions of simple arrangements of entities. Worldsense is a synthetic benchmark with three problem types, each with their own trivial control, which explicitly avoids bias by decorrelating the abstract structure of problems from the vocabulary and expressions, and by decorrelating all problem subparts with the correct response. We run our benchmark on three state-of-the-art chat-LLMs (GPT3.5, GPT4 and Llama2-chat) and show that these models make errors even with as few as three objects. Furthermore, they have quite heavy response biases, preferring certain responses irrespective of the question. Errors persist even with chain-of-thought prompting and in-context learning. Lastly, we show that while finetuning on similar problems does result in substantial improvements -- within- and out-of-distribution -- the finetuned models do not generalise beyond a constraint problem space.
Abstract（参考訳）: 我々は、エンティティの単純なアレンジメントの記述から単純な推論をいかに引き出すかをテストすることによって、llmが一貫してtacitの世界モデルを維持することができる程度を評価するために設計されたベンチマークであるworldsenseを提案する。 worldsenseは3つの問題タイプを持つ合成ベンチマークであり、それぞれが自明な制御を持ち、語彙と表現から問題の抽象構造を分離し、すべての問題部分と正しい応答を分離することで、バイアスを明示的に回避する。我々は,最先端の3つのチャット-LLM(GPT3.5,GPT4,Llama2-chat)上でベンチマークを行い,これらのモデルが3つのオブジェクトでもエラーを発生させることを示す。さらに、それらは非常に重い反応バイアスを持ち、質問に関係なく特定の反応を好む。エラーは、チェーン・オブ・シークレットのプロンプトやコンテキスト内学習でも継続する。最後に、同様の問題に対する微調整は、内的および外的という実質的な改善をもたらすが、微調整されたモデルは制約問題空間を超えて一般化しないことを示す。

関連論文リスト

Reasoning Large Language Model Errors Arise from Hallucinating Critical Problem Features [0.0]
可変複素制約満足論理問題として,o1-mini,o3-mini,DeepSeek-R1,Claude 3.7 Sonnet,Gemini 2.5 Pro Preview,Grok 3 Mini Betaをグラフカラー化でテストする。誤り率比較とCoT/説明テキスト解析の両方から、RLLMはグラフのプロンプト記述に指定されていないエッジを幻覚させる傾向にあることを示す。
論文参考訳（メタデータ） (2025-05-17T21:55:12Z)
Large Language Models and Mathematical Reasoning Failures [1.6114012813668932]
本稿では,50の高校レベルの単語問題を用いた大規模言語モデル(LLM)の数学的推論能力について検討する。最終回答と解決手順の両方を厳格に分析して、推論の失敗を特定します。より新しいモデル(例えば、o3-mini、deepseek-r1)はより精度が高いが、全てのモデルは空間的推論、戦略的計画、算術における誤りを示す。
論文参考訳（メタデータ） (2025-02-17T09:07:32Z)
Can Large Language Models Always Solve Easy Problems if They Can Solve Harder Ones? [65.43882564649721]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも矛盾する問題に悩まされている。我々はConsisEvalベンチマークを開発し、各エントリは厳密な難易度で2つの質問から構成される。相対的整合性スコアによる整合性向上の可能性を分析する。
論文参考訳（メタデータ） (2024-06-18T17:25:47Z)
Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models [13.532180752491954]
利用可能な最大規模でトレーニングされた最先端モデルの機能と推論能力の劇的な破壊を実演する。モデルは、問題の解決に影響を与えない、微妙な問題バリエーションでさえも強い変動を示すため、その分解は劇的である。これらの初期観測は、現在世代の大言語モデルが主張する能力の再評価を急激に促すものである。
論文参考訳（メタデータ） (2024-06-04T07:43:33Z)
Large Language Models Struggle with Unreasonability in Math Problems [41.970853209666224]
大規模言語モデル(LLM)は、幅広い数学と推論のベンチマークで顕著な成功を収めている。我々は、不合理な数学問題に直面した時にしばしば苦労するのを観察する。我々は,不合理な数学問題文を検出し,応答するLLMの能力を評価するために,textbfUnreasonable Math Problems (UMP)ベンチマークを提案する。
論文参考訳（メタデータ） (2024-03-28T12:04:28Z)
Frontier Language Models are not Robust to Adversarial Arithmetic, or "What do I need to say so you agree 2+2=5? [88.59136033348378]
言語モデルアライメントのための単純なテストベッドを提供する逆算術の問題を考察する。この問題は自然言語で表される算術的な問題から成り、質問が完了する前に任意の逆文字列を挿入する。これらの攻撃に対して、強化学習やエージェント構成ループを通じて、モデルを部分的に強化できることが示される。
論文参考訳（メタデータ） (2023-11-08T19:07:10Z)
Reliability Check: An Analysis of GPT-3's Response to Sensitive Topics and Prompt Wording [0.0]
GPT-3を混乱させるものは何か、モデルが特定のセンシティブなトピックにどう反応するか、そしてモデル応答にどのような影響があるのかを解析する。 GPT-3は明らかな陰謀やステレオタイプと正しく一致しないが、一般的な誤解や論争では誤りを犯す。モデル応答はプロンプトや設定に不整合であり、GPT-3の信頼性の欠如を強調している。
論文参考訳（メタデータ） (2023-06-09T19:07:31Z)
Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文参考訳（メタデータ） (2023-05-24T06:41:09Z)
On Reality and the Limits of Language Data: Aligning LLMs with Human Norms [10.02997544238235]
大規模言語モデル (LLMs) は、実践的な応用のために、膨大な自然言語データの言語関連性を利用する。我々は,この問題を,新規かつ厳密に制御された推論テスト(ART)を用いて探求し,人間の規範とGPT-3のバージョンを比較した。我々の研究は、データや弱点から直接学習できる常識関係モデルのカテゴリに注目した。
論文参考訳（メタデータ） (2022-08-25T10:21:23Z)
Generalization of Neural Combinatorial Solvers Through the Lens of Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文参考訳（メタデータ） (2021-10-21T07:28:11Z)
Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文参考訳（メタデータ） (2021-09-09T10:10:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。