論文の概要: BoardgameQA: A Dataset for Natural Language Reasoning with Contradictory
Information
- arxiv url: http://arxiv.org/abs/2306.07934v1
- Date: Tue, 13 Jun 2023 17:39:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 12:35:46.785921
- Title: BoardgameQA: A Dataset for Natural Language Reasoning with Contradictory
Information
- Title(参考訳): BoardgameQA: 矛盾情報を用いた自然言語推論用データセット
- Authors: Mehran Kazemi, Quan Yuan, Deepti Bhatia, Najoung Kim, Xin Xu, Vaiva
Imbrasaite, Deepak Ramachandran
- Abstract要約: 言語モデル(LM)は微調整なしに複雑な推論能力を示す。
本稿では,情報源の選好によって導かれる矛盾した情報による推論の問題を,デファシブル推論の古典的問題として定式化する。
我々は,ボードゲームQA上で様々なLMをベンチマークし,その結果,この問題における最先端のLMの推論能力に重大なギャップがあることを明らかにした。
- 参考スコア(独自算出の注目度): 11.299785330182004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated reasoning with unstructured natural text is a key requirement for
many potential applications of NLP and for developing robust AI systems.
Recently, Language Models (LMs) have demonstrated complex reasoning capacities
even without any finetuning. However, existing evaluation for automated
reasoning assumes access to a consistent and coherent set of information over
which models reason. When reasoning in the real-world, the available
information is frequently inconsistent or contradictory, and therefore models
need to be equipped with a strategy to resolve such conflicts when they arise.
One widely-applicable way of resolving conflicts is to impose preferences over
information sources (e.g., based on source credibility or information recency)
and adopt the source with higher preference. In this paper, we formulate the
problem of reasoning with contradictory information guided by preferences over
sources as the classical problem of defeasible reasoning, and develop a dataset
called BoardgameQA for measuring the reasoning capacity of LMs in this setting.
BoardgameQA also incorporates reasoning with implicit background knowledge, to
better reflect reasoning problems in downstream applications. We benchmark
various LMs on BoardgameQA and the results reveal a significant gap in the
reasoning capacity of state-of-the-art LMs on this problem, showing that
reasoning with conflicting information does not surface out-of-the-box in LMs.
While performance can be improved with finetuning, it nevertheless remains
poor.
- Abstract(参考訳): 構造化されていない自然なテキストによる自動推論は、NLPの潜在的な多くのアプリケーションや堅牢なAIシステムの開発において重要な要件である。
近年,言語モデル (LM) は微調整なしに複雑な推論能力を示した。
しかしながら、既存の自動推論の評価では、モデルが推論する一貫性があり一貫性のある情報セットへのアクセスが想定されている。
現実世界で推論する場合、利用可能な情報は矛盾したり矛盾することが多いため、モデルにそのような矛盾を解消するための戦略を組み込む必要がある。
紛争を解決するための広く適用可能な方法の1つは、情報ソース(例えば、ソース信頼性や情報レジェンシーに基づく)に優先を課し、より高い好みのソースを採用することである。
本稿では,情報提供者の嗜好によって導かれる矛盾情報による推論の問題を,従来のデファシブル推論の問題として定式化し,この設定におけるLMの推論能力を測定するためのボードゲームQAと呼ばれるデータセットを開発する。
BoardgameQAはまた、ダウンストリームアプリケーションにおける推論問題をよりよく反映するために、暗黙のバックグラウンド知識による推論も取り入れている。
本稿では,ボードゲームQA 上で様々な LM をベンチマークした結果,この問題に対する最先端の LM の推論能力に大きなギャップがあることが判明した。
性能は微調整で改善できるが、それでも貧弱である。
関連論文リスト
- GIVE: Structured Reasoning with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを統合する新しい推論フレームワークである。
本手法は,ゴールド回答検索ではなく,専門家の問題解決に類似した論理的・段階的推論手法を提案する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Belief Revision: The Adaptability of Large Language Models Reasoning [63.0281286287648]
本稿では,LMの信念修正能力をテストするための新しいデータセットであるBelief-Rを紹介する。
このタスクは、人間が事前の推論を抑える方法にインスパイアされ、新しく提案されたデルタ推論フレームワーク内のLMを評価する。
様々なプロンプト戦略にまたがる$sim$30 LMを評価した結果,LMは一般的に,新たな情報に反応して信念を適切に修正するのに苦慮していることがわかった。
論文 参考訳(メタデータ) (2024-06-28T09:09:36Z) - Large Language Models for Constrained-Based Causal Discovery [4.858756226945995]
因果関係は経済、脳、気候といった複雑なシステムを理解するのに不可欠である。
この研究は、因果グラフ生成のためのドメインエキスパートの代替として、LLM(Large Language Models)の能力を探求する。
論文 参考訳(メタデータ) (2024-06-11T15:45:24Z) - Case-Based Reasoning Approach for Solving Financial Question Answering [5.10832476049103]
FinQAは財務文書の数値推論データセットを導入した。
ケースベース推論(CBR)を用いた数値推論問題に対する新しいアプローチを提案する。
本モデルでは,質問に対処する関連事例を検索し,検索した事例と文脈情報に基づいて回答を生成する。
論文 参考訳(メタデータ) (2024-05-18T10:06:55Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Is Knowledge All Large Language Models Needed for Causal Reasoning? [11.476877330365664]
本稿では,大規模言語モデル(LLM)の因果推論について,人工知能の進化における解釈可能性と信頼性を高めるために検討する。
本稿では,do-operativesを利用した新たな因果帰属モデルを提案する。
論文 参考訳(メタデータ) (2023-12-30T04:51:46Z) - Concise and Organized Perception Facilitates Reasoning in Large Language Models [32.71672086718057]
大規模言語モデル (LLM) は, 推論作業における乱雑な内容や無関係な内容を扱う際に, 人間の認知バイアスに類似した障害パターンを示す。
コンシス・アンド・オーガナイズド・パーセプション(COP)という新しい推論手法を提案する。
COPは与えられたステートメントを慎重に分析し、冗長性を効率的に排除しながら、最も関連する情報を識別する。
論文 参考訳(メタデータ) (2023-10-05T04:47:49Z) - How to Handle Different Types of Out-of-Distribution Scenarios in Computational Argumentation? A Comprehensive and Fine-Grained Field Study [59.13867562744973]
この研究は、オフ・オブ・ディストリビューション(OOD)シナリオにおけるLMの能力を体系的に評価する。
このような学習パラダイムの有効性は,OODの種類によって異なることがわかった。
具体的には、ICLはドメインシフトに優れているが、プロンプトベースの微調整はトピックシフトに勝っている。
論文 参考訳(メタデータ) (2023-09-15T11:15:47Z) - A Study of Situational Reasoning for Traffic Understanding [63.45021731775964]
トラフィック領域における状況推論のための3つの新しいテキストベースのタスクを考案する。
先行作業における言語推論タスクにまたがる一般化能力を示す知識強化手法を4つ採用する。
本稿では,データ分割におけるモデル性能の詳細な解析を行い,モデル予測を分類的に検討する。
論文 参考訳(メタデータ) (2023-06-05T01:01:12Z) - Utilizing Background Knowledge for Robust Reasoning over Traffic
Situations [63.45021731775964]
我々は、インテリジェントトランスポーテーションの補完的な研究側面である交通理解に焦点を当てる。
本研究は,豊富なコモンセンス知識を前提として,テキストベースの手法とデータセットを対象とする。
交通状況に対するゼロショットQAには3つの知識駆動アプローチを採用しています。
論文 参考訳(メタデータ) (2022-12-04T09:17:24Z) - A Generalised Approach for Encoding and Reasoning with Qualitative
Theories in Answer Set Programming [3.963609604649393]
バイナリ関係を持つ定性計算を扱えるASPエンコーディングのファミリーが提案されている。
本論文はTPLPの受容について検討中である。
論文 参考訳(メタデータ) (2020-08-04T13:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。