論文の概要: How Much Coffee Was Consumed During EMNLP 2019? Fermi Problems: A New
Reasoning Challenge for AI
- arxiv url: http://arxiv.org/abs/2110.14207v1
- Date: Wed, 27 Oct 2021 06:39:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 01:29:47.686345
- Title: How Much Coffee Was Consumed During EMNLP 2019? Fermi Problems: A New
Reasoning Challenge for AI
- Title(参考訳): EMNLP 2019のコーヒーはいくらだったか?
fermi問題:aiのための新しい推論チャレンジ
- Authors: Ashwin Kalyan, Abhinav Kumar, Arjun Chandrasekaran, Ashish Sabharwal,
Peter Clark
- Abstract要約: 我々は新たな推論問題、すなわちフェルミ問題(Fermi Problems, FPs)を提案する。
FPは、その正確な計算が非現実的であるか不可能であるため、答えをおよそ見積もることができる質問である。
1) クイズとオリンピアドから得られた1k個の実世界のFPの収集,2) より難しい実世界の挑戦のためのサンドボックスとして機能する10k個の合成FPのバンク。
- 参考スコア(独自算出の注目度): 32.54495599722743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many real-world problems require the combined application of multiple
reasoning abilities employing suitable abstractions, commonsense knowledge, and
creative synthesis of problem-solving strategies. To help advance AI systems
towards such capabilities, we propose a new reasoning challenge, namely Fermi
Problems (FPs), which are questions whose answers can only be approximately
estimated because their precise computation is either impractical or
impossible. For example, "How much would the sea level rise if all ice in the
world melted?" FPs are commonly used in quizzes and interviews to bring out and
evaluate the creative reasoning abilities of humans. To do the same for AI
systems, we present two datasets: 1) A collection of 1k real-world FPs sourced
from quizzes and olympiads; and 2) a bank of 10k synthetic FPs of intermediate
complexity to serve as a sandbox for the harder real-world challenge. In
addition to question answer pairs, the datasets contain detailed solutions in
the form of an executable program and supporting facts, helping in supervision
and evaluation of intermediate steps. We demonstrate that even extensively
fine-tuned large scale language models perform poorly on these datasets, on
average making estimates that are off by two orders of magnitude. Our
contribution is thus the crystallization of several unsolved AI problems into a
single, new challenge that we hope will spur further advances in building
systems that can reason.
- Abstract(参考訳): 多くの現実世界の問題は、適切な抽象化、常識知識、問題解決戦略の創造的な合成を用いた複数の推論能力の組み合わせを必要とする。
このような能力に向けてaiシステムを前進させるため,我々は,その正確な計算が現実的でも不可能でも,その答えが推定できない問題であるフェルミ問題(fermi problem,fps)を提案する。
例えば、「世界のすべての氷が溶けたら、海面はどれくらい上昇しますか?
FPは、人間の創造的な推論能力を持ち出し評価するために、クイズやインタビューで一般的に使用される。
AIシステムでも同じことをするために、私たちは2つのデータセットを提示します。
1)クイズ及びオリンピアードから得られた1k個の現実世界FPの収集
2) より複雑な10kの合成FPのバンクは, より難しい現実的課題のサンドボックスとして機能する。
質問応答ペアに加えて、データセットには実行可能プログラムの形式で詳細なソリューションが含まれており、中間ステップの監督と評価を支援する。
大規模に調整された大規模言語モデルでさえ、これらのデータセットではパフォーマンスが悪く、平均すると2桁もオフになっている。
私たちの貢献は、未解決のAI問題の結晶化を、理にかなうシステム構築のさらなる進歩を後押ししたいと思っています。
関連論文リスト
- Do great minds think alike? Investigating Human-AI Complementarity in Question Answering with CAIMIRA [43.116608441891096]
人間は知識に基づく帰納的、概念的推論においてAIシステムより優れています。
GPT-4やLLaMAのような最先端のLLMは、ターゲット情報検索において優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-09T03:53:26Z) - OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI [73.75520820608232]
我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。
これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。
我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
論文 参考訳(メタデータ) (2024-06-18T16:20:53Z) - Cognition is All You Need -- The Next Layer of AI Above Large Language
Models [0.0]
我々は,大規模言語モデル以外のニューロシンボリック認知のためのフレームワークであるCognitive AIを紹介する。
我々は、認知AIがAGIのようなAI形態の進化に必須の先駆者であり、AGIは独自の確率論的アプローチでは達成できないと主張する。
我々は、大規模言語モデル、AIの採用サイクル、および商用の認知AI開発に関する議論で締めくくります。
論文 参考訳(メタデータ) (2024-03-04T16:11:57Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - Successive Prompting for Decomposing Complex Questions [50.00659445976735]
最近の研究は、大規模言語モデル(LM)の機能を活用して、数ショットで複雑な質問応答を行う。
そこでは、複雑なタスクを単純なタスクに繰り返し分解し、それを解決し、最終解を得るまでプロセスを繰り返します。
我々の最良のモデル(逐次プロンプト付き)は、DROPデータセットの数ショットバージョンにおいて、5%の絶対F1の改善を実現します。
論文 参考訳(メタデータ) (2022-12-08T06:03:38Z) - ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational
Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。
我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文 参考訳(メタデータ) (2022-10-07T23:48:50Z) - Doubly-stochastic mining for heterogeneous retrieval [74.43785301907276]
現代の検索問題は、数十億のラベルを持つトレーニングセットによって特徴づけられる。
ラベルの数が多ければ、単一の例であっても標準的な損失を最適化することは困難である。
両課題に対処するため, 二重確率地雷 (S2M) を提案する。
論文 参考訳(メタデータ) (2020-04-23T00:43:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。