論文の概要: JECC: Commonsense Reasoning Tasks Derived from Interactive Fictions
- arxiv url: http://arxiv.org/abs/2210.15456v2
- Date: Fri, 26 May 2023 05:40:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 23:39:31.752596
- Title: JECC: Commonsense Reasoning Tasks Derived from Interactive Fictions
- Title(参考訳): JECC:インタラクティブフィクションから得られた常識推論タスク
- Authors: Mo Yu, Yi Gu, Xiaoxiao Guo, Yufei Feng, Xiaodan Zhu, Michael
Greenspan, Murray Campbell, Chuang Gan
- Abstract要約: 本稿では,人間のインタラクティブ・フィクション(IF)ゲームプレイ・ウォークスルーに基づく新しいコモンセンス推論データセットを提案する。
本データセットは,事実知識ではなく,機能的コモンセンス知識ルールの評価に重点を置いている。
実験の結果、導入したデータセットは、以前の機械読影モデルと新しい大規模言語モデルに難題であることが示されている。
- 参考スコア(独自算出の注目度): 75.42526766746515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Commonsense reasoning simulates the human ability to make presumptions about
our physical world, and it is an essential cornerstone in building general AI
systems. We propose a new commonsense reasoning dataset based on human's
Interactive Fiction (IF) gameplay walkthroughs as human players demonstrate
plentiful and diverse commonsense reasoning. The new dataset provides a natural
mixture of various reasoning types and requires multi-hop reasoning. Moreover,
the IF game-based construction procedure requires much less human interventions
than previous ones. Different from existing benchmarks, our dataset focuses on
the assessment of functional commonsense knowledge rules rather than factual
knowledge. Hence, in order to achieve higher performance on our tasks, models
need to effectively utilize such functional knowledge to infer the outcomes of
actions, rather than relying solely on memorizing facts. Experiments show that
the introduced dataset is challenging to previous machine reading models as
well as the new large language models with a significant 20% performance gap
compared to human experts.
- Abstract(参考訳): commonsenseの推論は、私たちの物理的な世界について推定する人間の能力をシミュレートし、一般的なaiシステムを構築する上で重要な基礎となる。
本研究では,人間プレイヤーが多様かつ多様なコモンセンス推論を実証する際,人間のインタラクティブフィクション(IF)ゲームプレイスルーに基づく新しいコモンセンス推論データセットを提案する。
新しいデータセットは、様々な推論タイプの自然な混合を提供し、マルチホップ推論を必要とする。
さらに、IFゲームベースの建設手順は、以前のものよりもはるかに少ない人間の介入を必要とする。
既存のベンチマークと異なり、我々のデータセットは、事実知識よりも機能的常識知識ルールの評価に焦点を当てている。
したがって、タスクのより高いパフォーマンスを達成するために、モデルは事実を記憶することのみに頼るのではなく、そのような機能的知識を効果的に活用して行動の結果を予測する必要がある。
実験によると、導入されたデータセットは、従来の機械学習モデルだけでなく、人間のエキスパートに比べて20%のパフォーマンスギャップを持つ新しい大規模言語モデルにも挑戦している。
関連論文リスト
- Visual-O1: Understanding Ambiguous Instructions via Multi-modal Multi-turn Chain-of-thoughts Reasoning [53.45295657891099]
本稿では,マルチモーダルなマルチターン・チェーン・オブ・シークレット・推論・フレームワークであるVisual-O1を提案する。
人間のマルチモーダルなマルチターン推論をシミュレートし、高度にインテリジェントなモデルに即時体験を提供する。
私たちの研究は、不確実性と曖昧さのある現実のシナリオにおいて、人工知能が人間のように機能する可能性を強調します。
論文 参考訳(メタデータ) (2024-10-04T11:18:41Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - What If the TV Was Off? Examining Counterfactual Reasoning Abilities of Multi-modal Language Models [22.0839948292609]
我々は,現代言語モデルの対実的推論能力をテストするために,新しいデータセットC-VQAを導入する。
このデータセットは、数値クエリや対語クエリなど、さまざまなタイプでオリジナルの質問を注入することで構築される。
このデータセットを用いた現代の視覚モデルの評価では、性能低下が顕著であり、いくつかのモデルでは40%まで低下している。
論文 参考訳(メタデータ) (2023-10-10T13:45:59Z) - Towards A Unified Agent with Foundation Models [18.558328028366816]
強化学習(RL)エージェントにそのような能力を組み込んで活用する方法を検討する。
我々は、言語を中核的推論ツールとして使用するフレームワークを設計し、エージェントが一連の基本的なRL課題にどのように取り組むことができるかを探る。
探索効率とオフラインデータセットからのデータの再利用能力において,ベースラインよりも大幅にパフォーマンスが向上したことを示す。
論文 参考訳(メタデータ) (2023-07-18T22:37:30Z) - Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational
Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。
我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文 参考訳(メタデータ) (2022-10-07T23:48:50Z) - A Benchmark for Compositional Visual Reasoning [5.576460160219606]
我々は、よりデータ効率のよい学習アルゴリズムへ進むために、新しいビジュアル推論ベンチマークであるコンポジションビジュアルリレーショナル(CVR)を導入する。
我々は,流体知能と非言語推論テストからインスピレーションを得て,抽象ルールと関連する画像データセットを大規模に作成するための新しい手法について述べる。
提案するベンチマークには, タスクルール間のサンプル効率, 一般化, 転送, および, 構成性を活用する能力が含まれている。
論文 参考訳(メタデータ) (2022-06-11T00:04:49Z) - Deriving Commonsense Inference Tasks from Interactive Fictions [44.15655034882293]
本研究では,人間のインタラクティブなフィクションゲームプレイに基づく新しいコモンセンス推論データセットを提案する。
実験により,我々の課題は十分な常識知識を持つ人間の専門家に解けるが,既存の機械読解モデルに課題が生じることが示された。
論文 参考訳(メタデータ) (2020-10-19T19:02:34Z) - LogiQA: A Challenge Dataset for Machine Reading Comprehension with
Logical Reasoning [20.81312285957089]
私たちは、人間の論理的推論をテストするための専門家による質問から得られた、LogiQAという名前の包括的なデータセットを構築します。
その結果、最先端のニューラルモデルでは、人間の天井よりもはるかにパフォーマンスが悪いことが判明した。
我々のデータセットは、ディープラーニングNLP設定下で論理AIを再調査するためのベンチマークとしても機能する。
論文 参考訳(メタデータ) (2020-07-16T05:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。