Fugu-MT 論文翻訳(概要): BoardgameQA: A Dataset for Natural Language Reasoning with Contradictory Information

論文の概要: BoardgameQA: A Dataset for Natural Language Reasoning with Contradictory Information

arxiv url: http://arxiv.org/abs/2306.07934v1
Date: Tue, 13 Jun 2023 17:39:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-14 12:35:46.785921
Title: BoardgameQA: A Dataset for Natural Language Reasoning with Contradictory Information
Title（参考訳）: BoardgameQA: 矛盾情報を用いた自然言語推論用データセット
Authors: Mehran Kazemi, Quan Yuan, Deepti Bhatia, Najoung Kim, Xin Xu, Vaiva Imbrasaite, Deepak Ramachandran
Abstract要約: 言語モデル(LM)は微調整なしに複雑な推論能力を示す。本稿では,情報源の選好によって導かれる矛盾した情報による推論の問題を,デファシブル推論の古典的問題として定式化する。我々は,ボードゲームQA上で様々なLMをベンチマークし,その結果,この問題における最先端のLMの推論能力に重大なギャップがあることを明らかにした。
参考スコア（独自算出の注目度）: 11.299785330182004
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automated reasoning with unstructured natural text is a key requirement for many potential applications of NLP and for developing robust AI systems. Recently, Language Models (LMs) have demonstrated complex reasoning capacities even without any finetuning. However, existing evaluation for automated reasoning assumes access to a consistent and coherent set of information over which models reason. When reasoning in the real-world, the available information is frequently inconsistent or contradictory, and therefore models need to be equipped with a strategy to resolve such conflicts when they arise. One widely-applicable way of resolving conflicts is to impose preferences over information sources (e.g., based on source credibility or information recency) and adopt the source with higher preference. In this paper, we formulate the problem of reasoning with contradictory information guided by preferences over sources as the classical problem of defeasible reasoning, and develop a dataset called BoardgameQA for measuring the reasoning capacity of LMs in this setting. BoardgameQA also incorporates reasoning with implicit background knowledge, to better reflect reasoning problems in downstream applications. We benchmark various LMs on BoardgameQA and the results reveal a significant gap in the reasoning capacity of state-of-the-art LMs on this problem, showing that reasoning with conflicting information does not surface out-of-the-box in LMs. While performance can be improved with finetuning, it nevertheless remains poor.
Abstract（参考訳）: 構造化されていない自然なテキストによる自動推論は、NLPの潜在的な多くのアプリケーションや堅牢なAIシステムの開発において重要な要件である。近年,言語モデル (LM) は微調整なしに複雑な推論能力を示した。しかしながら、既存の自動推論の評価では、モデルが推論する一貫性があり一貫性のある情報セットへのアクセスが想定されている。現実世界で推論する場合、利用可能な情報は矛盾したり矛盾することが多いため、モデルにそのような矛盾を解消するための戦略を組み込む必要がある。紛争を解決するための広く適用可能な方法の1つは、情報ソース(例えば、ソース信頼性や情報レジェンシーに基づく)に優先を課し、より高い好みのソースを採用することである。本稿では,情報提供者の嗜好によって導かれる矛盾情報による推論の問題を,従来のデファシブル推論の問題として定式化し,この設定におけるLMの推論能力を測定するためのボードゲームQAと呼ばれるデータセットを開発する。 BoardgameQAはまた、ダウンストリームアプリケーションにおける推論問題をよりよく反映するために、暗黙のバックグラウンド知識による推論も取り入れている。本稿では,ボードゲームQA 上で様々な LM をベンチマークした結果,この問題に対する最先端の LM の推論能力に大きなギャップがあることが判明した。性能は微調整で改善できるが、それでも貧弱である。

関連論文リスト

From Passive to Active Reasoning: Can Large Language Models Ask the Right Questions under Incomplete Information? [34.959850282872594]
LLMのアクティブな推論能力を評価するために設計された新しいベンチマークであるAR-Benchを提案する。 AR-Benchは3つのタスクファミリー検出ケース、状況パズル、推測数で構成される。 AR-ベンチに関する実証的な評価は、現代のLDMは活発な推論を伴う困難を顕著に示していることを示している。
論文参考訳（メタデータ） (2025-06-09T23:56:41Z)
LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation [1.2576388595811496]
自然言語を基盤とした挑戦的推論ベンチマークであるlingOLY-TOOを紹介する。実言語で記述された推論問題をパーミュレートして、多数の質問のバリエーションを生成する。実験と分析は、モデルが推論を回避し、事前の知識から回答できることを示している。
論文参考訳（メタデータ） (2025-03-04T19:57:47Z)
Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-10T15:31:54Z)
Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文参考訳（メタデータ） (2024-10-24T12:42:04Z)
GIVE: Structured Reasoning with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを統合する新しい推論フレームワークである。本手法は,ゴールド回答検索ではなく,専門家の問題解決に類似した論理的・段階的推論手法を提案する。
論文参考訳（メタデータ） (2024-10-11T03:05:06Z)
Belief Revision: The Adaptability of Large Language Models Reasoning [63.0281286287648]
本稿では,LMの信念修正能力をテストするための新しいデータセットであるBelief-Rを紹介する。このタスクは、人間が事前の推論を抑える方法にインスパイアされ、新しく提案されたデルタ推論フレームワーク内のLMを評価する。様々なプロンプト戦略にまたがる$sim$30 LMを評価した結果,LMは一般的に,新たな情報に反応して信念を適切に修正するのに苦慮していることがわかった。
論文参考訳（メタデータ） (2024-06-28T09:09:36Z)
Large Language Models for Constrained-Based Causal Discovery [4.858756226945995]
因果関係は経済、脳、気候といった複雑なシステムを理解するのに不可欠である。この研究は、因果グラフ生成のためのドメインエキスパートの代替として、LLM(Large Language Models)の能力を探求する。
論文参考訳（メタデータ） (2024-06-11T15:45:24Z)
Case-Based Reasoning Approach for Solving Financial Question Answering [5.10832476049103]
FinQAは財務文書の数値推論データセットを導入した。ケースベース推論(CBR)を用いた数値推論問題に対する新しいアプローチを提案する。本モデルでは,質問に対処する関連事例を検索し,検索した事例と文脈情報に基づいて回答を生成する。
論文参考訳（メタデータ） (2024-05-18T10:06:55Z)
LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文参考訳（メタデータ） (2024-04-09T13:08:56Z)
Bayesian Preference Elicitation with Language Models [82.58230273253939]
本稿では,BOEDを用いて情報的質問の選択を案内するフレームワークOPENと,特徴抽出のためのLMを紹介する。ユーザスタディでは,OPEN が既存の LM- や BOED をベースとした選好手法よりも優れていることが判明した。
論文参考訳（メタデータ） (2024-03-08T18:57:52Z)
Is Knowledge All Large Language Models Needed for Causal Reasoning? [11.476877330365664]
本稿では,大規模言語モデル(LLM)の因果推論について,人工知能の進化における解釈可能性と信頼性を高めるために検討する。本稿では,do-operativesを利用した新たな因果帰属モデルを提案する。
論文参考訳（メタデータ） (2023-12-30T04:51:46Z)
Concise and Organized Perception Facilitates Reasoning in Large Language Models [32.71672086718057]
大規模言語モデル (LLM) は, 推論作業における乱雑な内容や無関係な内容を扱う際に, 人間の認知バイアスに類似した障害パターンを示す。コンシス・アンド・オーガナイズド・パーセプション(COP)という新しい推論手法を提案する。 COPは与えられたステートメントを慎重に分析し、冗長性を効率的に排除しながら、最も関連する情報を識別する。
論文参考訳（メタデータ） (2023-10-05T04:47:49Z)
How to Handle Different Types of Out-of-Distribution Scenarios in Computational Argumentation? A Comprehensive and Fine-Grained Field Study [59.13867562744973]
この研究は、オフ・オブ・ディストリビューション(OOD)シナリオにおけるLMの能力を体系的に評価する。このような学習パラダイムの有効性は,OODの種類によって異なることがわかった。具体的には、ICLはドメインシフトに優れているが、プロンプトベースの微調整はトピックシフトに勝っている。
論文参考訳（メタデータ） (2023-09-15T11:15:47Z)
A Study of Situational Reasoning for Traffic Understanding [63.45021731775964]
トラフィック領域における状況推論のための3つの新しいテキストベースのタスクを考案する。先行作業における言語推論タスクにまたがる一般化能力を示す知識強化手法を4つ採用する。本稿では,データ分割におけるモデル性能の詳細な解析を行い,モデル予測を分類的に検討する。
論文参考訳（メタデータ） (2023-06-05T01:01:12Z)
Utilizing Background Knowledge for Robust Reasoning over Traffic Situations [63.45021731775964]
我々は、インテリジェントトランスポーテーションの補完的な研究側面である交通理解に焦点を当てる。本研究は,豊富なコモンセンス知識を前提として,テキストベースの手法とデータセットを対象とする。交通状況に対するゼロショットQAには3つの知識駆動アプローチを採用しています。
論文参考訳（メタデータ） (2022-12-04T09:17:24Z)
A Generalised Approach for Encoding and Reasoning with Qualitative Theories in Answer Set Programming [3.963609604649393]
バイナリ関係を持つ定性計算を扱えるASPエンコーディングのファミリーが提案されている。本論文はTPLPの受容について検討中である。
論文参考訳（メタデータ） (2020-08-04T13:31:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。