論文の概要: MuSR: Testing the Limits of Chain-of-thought with Multistep Soft
Reasoning
- arxiv url: http://arxiv.org/abs/2310.16049v1
- Date: Tue, 24 Oct 2023 17:59:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 17:20:17.788498
- Title: MuSR: Testing the Limits of Chain-of-thought with Multistep Soft
Reasoning
- Title(参考訳): MuSR:マルチステップソフト推論によるチェーンの限界テスト
- Authors: Zayne Sprague, Xi Ye, Kaj Bostrom, Swarat Chaudhuri, Greg Durrett
- Abstract要約: 自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
- 参考スコア(独自算出の注目度): 68.45550068277441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) equipped with techniques like
chain-of-thought prompting have demonstrated impressive capabilities, they
still fall short in their ability to reason robustly in complex settings.
However, evaluating LLM reasoning is challenging because system capabilities
continue to grow while benchmark datasets for tasks like logical deduction have
remained static. We introduce MuSR, a dataset for evaluating language models on
multistep soft reasoning tasks specified in a natural language narrative. This
dataset has two crucial features. First, it is created through a novel
neurosymbolic synthetic-to-natural generation algorithm, enabling the
construction of complex reasoning instances that challenge GPT-4 (e.g., murder
mysteries roughly 1000 words in length) and which can be scaled further as more
capable LLMs are released. Second, our dataset instances are free text
narratives corresponding to real-world domains of reasoning; this makes it
simultaneously much more challenging than other synthetically-crafted
benchmarks while remaining realistic and tractable for human annotators to
solve with high accuracy. We evaluate a range of LLMs and prompting techniques
on this dataset and characterize the gaps that remain for techniques like
chain-of-thought to perform robust reasoning.
- Abstract(参考訳): 大きな言語モデル(LLM)にはチェーン・オブ・シークレット・プロンプトのような技術が備わっているが、それでも複雑な設定で堅牢に推論できる能力は不足している。
しかし、LLM推論の評価は、論理的推論のようなタスクのベンチマークデータセットが静的のままである間、システムの能力が成長し続けるため、難しい。
自然言語ナラティブで指定された多段階のソフト推論タスクに基づいて言語モデルを評価するデータセットであるMuSRを紹介する。
このデータセットには2つの重要な特徴がある。
まず、新しいニューロシンボリック合成-自然生成アルゴリズムによって作成され、GPT-4(例えば約1000ワードの謎)に挑戦する複雑な推論インスタンスの構築を可能にし、より有能なLSMが放出されるにつれてさらにスケールすることができる。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
我々は、このデータセット上で様々なLSMを評価し、堅牢な推論を行うために、チェーンオブ思考のような技術に残るギャップを特徴づける。
関連論文リスト
- LUCID: LLM-Generated Utterances for Complex and Interesting Dialogues [40.07063536167041]
仮想アシスタントは、トランスフォーマーベース大規模言語モデル(LLM)の進歩によって、対話能力の面で劇的な飛躍を遂げる可能性がある。
しかし、真にトランスフォーメーションされたタスク指向対話機能を実現するための大きなボトルネックは、高品質で言語学的に洗練されたデータの不足である。
LUCIDを使用して、100のインテントにまたがる4,277のマルチドメイン、マルチインテリジェントな会話のシードデータセットを生成し、その能力を実証しています。
論文 参考訳(メタデータ) (2024-03-01T11:33:53Z) - Caught in the Quicksand of Reasoning, Far from AGI Summit: Evaluating
LLMs' Mathematical and Coding Competency through Ontology-guided
Interventions [50.68293377521595]
大規模言語モデル(LLM)は論理的推論ベンチマークで顕著な結果を示した。
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
質問に対して、すべてのモデルで大幅なパフォーマンス低下を見せています。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - Large Language Models Can Learn Temporal Reasoning [12.671697405714076]
言語に基づく時間的推論のための新しいフレームワークTG-LLMを提案する。
具体的には、まずLLMにコンテキストを時間グラフ(TG)に変換するように教える。
論文 参考訳(メタデータ) (2024-01-12T19:00:26Z) - Are LLMs Rigorous Logical Reasoner? Empowering Natural Language Proof
Generation with Contrastive Stepwise Decoding [11.385103498440932]
本稿では,論理的推論のためのモデルの能力を高めるために,負の推論経路を用いることにより,ステップワイズな証明生成に対照的な復号を導入する。
EntailmentBankの実験は、言語モデルの計画能力を実証する上で、我々の手法の成功を裏付けている。
論文 参考訳(メタデータ) (2023-11-12T05:12:49Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical
Reasoning Capabilities of Language Models [58.76688462256284]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
一つのタスクトレーニング,複数タスクトレーニング,および思考知識の蒸留微調整手法の連鎖について検討し,異なる論理的推論カテゴリにおけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text
Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。
WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文 参考訳(メタデータ) (2022-12-16T17:36:23Z) - ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational
Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。
我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文 参考訳(メタデータ) (2022-10-07T23:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。