論文の概要: BoardgameQA: A Dataset for Natural Language Reasoning with Contradictory
Information
- arxiv url: http://arxiv.org/abs/2306.07934v1
- Date: Tue, 13 Jun 2023 17:39:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 12:35:46.785921
- Title: BoardgameQA: A Dataset for Natural Language Reasoning with Contradictory
Information
- Title(参考訳): BoardgameQA: 矛盾情報を用いた自然言語推論用データセット
- Authors: Mehran Kazemi, Quan Yuan, Deepti Bhatia, Najoung Kim, Xin Xu, Vaiva
Imbrasaite, Deepak Ramachandran
- Abstract要約: 言語モデル(LM)は微調整なしに複雑な推論能力を示す。
本稿では,情報源の選好によって導かれる矛盾した情報による推論の問題を,デファシブル推論の古典的問題として定式化する。
我々は,ボードゲームQA上で様々なLMをベンチマークし,その結果,この問題における最先端のLMの推論能力に重大なギャップがあることを明らかにした。
- 参考スコア(独自算出の注目度): 11.299785330182004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated reasoning with unstructured natural text is a key requirement for
many potential applications of NLP and for developing robust AI systems.
Recently, Language Models (LMs) have demonstrated complex reasoning capacities
even without any finetuning. However, existing evaluation for automated
reasoning assumes access to a consistent and coherent set of information over
which models reason. When reasoning in the real-world, the available
information is frequently inconsistent or contradictory, and therefore models
need to be equipped with a strategy to resolve such conflicts when they arise.
One widely-applicable way of resolving conflicts is to impose preferences over
information sources (e.g., based on source credibility or information recency)
and adopt the source with higher preference. In this paper, we formulate the
problem of reasoning with contradictory information guided by preferences over
sources as the classical problem of defeasible reasoning, and develop a dataset
called BoardgameQA for measuring the reasoning capacity of LMs in this setting.
BoardgameQA also incorporates reasoning with implicit background knowledge, to
better reflect reasoning problems in downstream applications. We benchmark
various LMs on BoardgameQA and the results reveal a significant gap in the
reasoning capacity of state-of-the-art LMs on this problem, showing that
reasoning with conflicting information does not surface out-of-the-box in LMs.
While performance can be improved with finetuning, it nevertheless remains
poor.
- Abstract(参考訳): 構造化されていない自然なテキストによる自動推論は、NLPの潜在的な多くのアプリケーションや堅牢なAIシステムの開発において重要な要件である。
近年,言語モデル (LM) は微調整なしに複雑な推論能力を示した。
しかしながら、既存の自動推論の評価では、モデルが推論する一貫性があり一貫性のある情報セットへのアクセスが想定されている。
現実世界で推論する場合、利用可能な情報は矛盾したり矛盾することが多いため、モデルにそのような矛盾を解消するための戦略を組み込む必要がある。
紛争を解決するための広く適用可能な方法の1つは、情報ソース(例えば、ソース信頼性や情報レジェンシーに基づく)に優先を課し、より高い好みのソースを採用することである。
本稿では,情報提供者の嗜好によって導かれる矛盾情報による推論の問題を,従来のデファシブル推論の問題として定式化し,この設定におけるLMの推論能力を測定するためのボードゲームQAと呼ばれるデータセットを開発する。
BoardgameQAはまた、ダウンストリームアプリケーションにおける推論問題をよりよく反映するために、暗黙のバックグラウンド知識による推論も取り入れている。
本稿では,ボードゲームQA 上で様々な LM をベンチマークした結果,この問題に対する最先端の LM の推論能力に大きなギャップがあることが判明した。
性能は微調整で改善できるが、それでも貧弱である。
関連論文リスト
- Bayesian Preference Elicitation with Language Models [82.58230273253939]
本稿では,BOEDを用いて情報的質問の選択を案内するフレームワークOPENと,特徴抽出のためのLMを紹介する。
ユーザスタディでは,OPEN が既存の LM- や BOED をベースとした選好手法よりも優れていることが判明した。
論文 参考訳(メタデータ) (2024-03-08T18:57:52Z) - Is Knowledge All Large Language Models Needed for Causal Reasoning? [12.898859965556698]
本稿では,大規模言語モデル(LLM)の因果推論について,人工知能の進化における解釈可能性と信頼性を高めるために検討する。
本稿では,「do-operators」を用いた新たな因果帰属モデルを提案する。
論文 参考訳(メタデータ) (2023-12-30T04:51:46Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical
Reasoning Capabilities of Language Models [58.76688462256284]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
一つのタスクトレーニング,複数タスクトレーニング,および思考知識の蒸留微調整手法の連鎖について検討し,異なる論理的推論カテゴリにおけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Data Distribution Bottlenecks in Grounding Language Models to Knowledge
Bases [9.610231090476857]
言語モデル(LM)は、自然言語と形式言語の両方を理解し、生成する際、すでに顕著な能力を示している。
本論文は,知識ベース質問応答(KBQA)を課題として,LMが直面する課題を明らかにすることを目的とした実験的研究である。
実験の結果,提案手法を応用しても,様々な次元において,先進的な小・大規模言語モデルの性能が低下していることが判明した。
論文 参考訳(メタデータ) (2023-09-15T12:06:45Z) - How to Handle Different Types of Out-of-Distribution Scenarios in
Computational Argumentation? A Comprehensive and Fine-Grained Field Study [66.4659448305396]
この研究は、オフ・オブ・ディストリビューション(OOD)シナリオにおけるLMの能力を体系的に評価する。
このような学習パラダイムの有効性は,OODの種類によって異なることがわかった。
具体的には、ICLはドメインシフトに優れているが、プロンプトベースの微調整はトピックシフトに勝っている。
論文 参考訳(メタデータ) (2023-09-15T11:15:47Z) - A Study of Situational Reasoning for Traffic Understanding [63.45021731775964]
トラフィック領域における状況推論のための3つの新しいテキストベースのタスクを考案する。
先行作業における言語推論タスクにまたがる一般化能力を示す知識強化手法を4つ採用する。
本稿では,データ分割におけるモデル性能の詳細な解析を行い,モデル予測を分類的に検討する。
論文 参考訳(メタデータ) (2023-06-05T01:01:12Z) - Utilizing Background Knowledge for Robust Reasoning over Traffic
Situations [63.45021731775964]
我々は、インテリジェントトランスポーテーションの補完的な研究側面である交通理解に焦点を当てる。
本研究は,豊富なコモンセンス知識を前提として,テキストベースの手法とデータセットを対象とする。
交通状況に対するゼロショットQAには3つの知識駆動アプローチを採用しています。
論文 参考訳(メタデータ) (2022-12-04T09:17:24Z) - Structured Knowledge Grounding for Question Answering [0.23068481501673416]
本稿では,知識に基づく質問応答の柔軟性,範囲の広さ,構造的推論に言語と知識を活用することを提案する。
具体的には,動的ホップを用いて関連するコンテキストを検索する知識構築手法を考案する。
そして、言語と知識の間のボトルネックを交換する情報を橋渡しする深層融合機構を考案する。
論文 参考訳(メタデータ) (2022-09-17T08:48:50Z) - Coreference Reasoning in Machine Reading Comprehension [100.75624364257429]
機械読解におけるコレファレンス推論は,従来考えられていたよりも大きな課題である。
本稿では,コア参照推論の課題を反映した理解データセットの読解手法を提案する。
これにより、さまざまなMRCデータセットにまたがる最先端のモデルの推論能力が向上します。
論文 参考訳(メタデータ) (2020-12-31T12:18:41Z) - A Generalised Approach for Encoding and Reasoning with Qualitative
Theories in Answer Set Programming [3.963609604649393]
バイナリ関係を持つ定性計算を扱えるASPエンコーディングのファミリーが提案されている。
本論文はTPLPの受容について検討中である。
論文 参考訳(メタデータ) (2020-08-04T13:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。