論文の概要: Knowledge Crosswords: Geometric Reasoning over Structured Knowledge with
Large Language Models
- arxiv url: http://arxiv.org/abs/2310.01290v1
- Date: Mon, 2 Oct 2023 15:43:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 21:14:01.873817
- Title: Knowledge Crosswords: Geometric Reasoning over Structured Knowledge with
Large Language Models
- Title(参考訳): 知識のクロスワード:大規模言語モデルによる構造化知識の幾何学的推論
- Authors: Wenxuan Ding, Shangbin Feng, Yuhan Liu, Zhaoxuan Tan, Vidhisha
Balachandran, Tianxing He, Yulia Tsvetkov
- Abstract要約: 構造的知識に対する幾何学的推論を提案し、そこでは知識の一部がグラフ構造に連結され、モデルは不足した情報を埋める必要がある。
このような幾何学的知識推論は、構造化された知識、不確実性のある推論、事実の検証、エラーが発生した時のバックトラックを扱う能力を必要とする。
本稿では,不完全なエンティティネットワークの幾何学的制約を表す自然言語質問からなるマルチブランクQAデータセットであるKnowledge Crosswordsを提案する。
- 参考スコア(独自算出の注目度): 51.35398315130094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are widely adopted in knowledge-intensive tasks
and have achieved impressive performance thanks to their knowledge abilities.
While LLMs have demonstrated outstanding performance on atomic or linear
(multi-hop) QA tasks, whether they can reason in knowledge-rich scenarios with
interweaving constraints remains an underexplored problem. In this work, we
propose geometric reasoning over structured knowledge, where pieces of
knowledge are connected in a graph structure and models need to fill in the
missing information. Such geometric knowledge reasoning would require the
ability to handle structured knowledge, reason with uncertainty, verify facts,
and backtrack when an error occurs. We propose Knowledge Crosswords, a
multi-blank QA dataset where each problem consists of a natural language
question representing the geometric constraints of an incomplete entity
network, where LLMs are tasked with working out the missing entities while
meeting all factual constraints. Knowledge Crosswords contains 2,101 individual
problems, covering various knowledge domains and further divided into three
difficulty levels. We conduct extensive experiments to evaluate existing LLM
prompting approaches on the Knowledge Crosswords benchmark. We additionally
propose two new approaches, Staged Prompting and Verify-All, to augment LLMs'
ability to backtrack and verify structured constraints. Our results demonstrate
that while baseline approaches perform well on easier problems but struggle
with hard ones, our proposed Verify-All outperforms other methods by a large
margin and is more robust with hard problems. Further analysis reveals that
LLMs' ability of geometric reasoning over structured knowledge is still far
from robust or perfect, susceptible to confounders such as the order of
options, certain structural patterns, assumption of existence of correct
answer, and more.
- Abstract(参考訳): 大規模言語モデル(LLM)は知識集約的なタスクで広く採用されており、その知識能力によって優れたパフォーマンスを実現している。
LLMは、原子的または線形(マルチホップ)なQAタスクにおいて顕著な性能を示してきたが、それらが、インターウィービング制約を伴う知識豊富なシナリオで推論できるかどうかはまだ未解決の問題である。
そこで本研究では,知識の一部がグラフ構造に連結され,モデルが不足する情報を埋める必要がある,構造化知識に対する幾何学的推論を提案する。
このような幾何学的知識推論は、構造化された知識、不確実性のある推論、事実の検証、エラーが発生した時のバックトラックを扱う能力を必要とする。
そこで我々は,不完全なエンティティネットワークの幾何学的制約を表現する自然言語質問と,すべての制約を満たしながら行方不明のエンティティの処理をllmが行う自然言語質問からなる,マルチブランクqaデータセットであるナレッジクロスワードを提案する。
知識クロスワードには2,101の個別の問題が含まれ、様々な知識領域をカバーし、さらに3つの困難レベルに分けられる。
我々はknowledge crosswordsベンチマークで既存のllmプロンプトアプローチを評価するための広範囲な実験を行う。
さらに,LLMのバックトラックと構造化制約の検証能力を高めるために,Staged PromptingとVerify-Allという2つの新しいアプローチを提案する。
提案するVerify-Allは,より簡単な問題に対してベースラインアプローチが良好に機能する一方で,他の手法よりも大きなマージンで性能が向上し,難しい問題に対して堅牢であることを示す。
さらなる分析により、llmsの構造化知識よりも幾何学的推論の能力は、選択肢の順序、特定の構造的パターン、正しい答えの存在の仮定など、共同創設者に影響を受けやすい、強固あるいは完全とは程遠いことが判明した。
関連論文リスト
- Untangle the KNOT: Interweaving Conflicting Knowledge and Reasoning Skills in Large Language Models [51.72963030032491]
大規模言語モデル(LLM)の知識文書は、時代遅れや誤った知識のためにLLMの記憶と矛盾する可能性がある。
我々は,知識紛争解決のための新しいデータセットKNOTを構築した。
論文 参考訳(メタデータ) (2024-04-04T16:40:11Z) - KnowTuning: Knowledge-aware Fine-tuning for Large Language Models [83.5849717262019]
本研究では,LLMの微粒で粗粒な知識認識を改善するための知識認識ファインタニング(KnowTuning)手法を提案する。
KnowTuningは、きめ細かい事実評価の下で、より少ない事実エラー率で多くの事実を生成する。
論文 参考訳(メタデータ) (2024-02-17T02:54:32Z) - Don't Hallucinate, Abstain: Identifying LLM Knowledge Gaps via Multi-LLM Collaboration [39.603649838876294]
本研究では,LLMの知識ギャップを同定し,知識ギャップが存在する場合の質問への回答を控えるアプローチについて検討する。
保留集合上での自己回帰と過度信頼の失敗により、我々は2つの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-01T06:11:49Z) - DeepEdit: Knowledge Editing as Decoding with Constraints [118.78008395850888]
多段階推論における知識の編集は、大規模言語モデル(LLM)の知識編集(KE)において大きな課題となっている。
我々は、深度優先探索により新しい知識を持つコヒーレント推論チェーンを生成するLLMの能力を高める新しいKEフレームワークDEEPEDITを提案する。
DEEPEDITに加えて, MQUAKE-2002 と MQUAKE-HARD という2つの新しい KE ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-01-19T03:48:27Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Beyond Factuality: A Comprehensive Evaluation of Large Language Models
as Knowledge Generators [78.63553017938911]
大規模言語モデル(LLM)は、下流の知識集約タスクのための情報検索技術より優れている。
しかし、コミュニティの懸念は、この無検閲の知識を使用することの事実と潜在的意味について多岐にわたる。
本研究では,6つの重要な視点から生成した知識を評価するために設計されたCONNERを紹介する。
論文 参考訳(メタデータ) (2023-10-11T08:22:37Z) - Towards Continual Knowledge Learning of Language Models [11.000501711652829]
大規模言語モデル(LM)は、膨大な量のWebコーパスで事前訓練を行う際に、そのパラメータで世界の知識を符号化することが知られている。
実世界のシナリオでは、LMに格納されている世界知識は、世界が変化するにつれて急速に時代遅れになる。
継続知識学習(CKL)と呼ばれる新しい継続学習(CL)問題を定式化する。
論文 参考訳(メタデータ) (2021-10-07T07:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。