論文の概要: Knowledge Crosswords: Geometric Knowledge Reasoning with Large Language Models
- arxiv url: http://arxiv.org/abs/2310.01290v2
- Date: Tue, 25 Jun 2024 06:25:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 21:09:52.010703
- Title: Knowledge Crosswords: Geometric Knowledge Reasoning with Large Language Models
- Title(参考訳): 知識クロスワード: 大規模言語モデルを用いた幾何学的知識推論
- Authors: Wenxuan Ding, Shangbin Feng, Yuhan Liu, Zhaoxuan Tan, Vidhisha Balachandran, Tianxing He, Yulia Tsvetkov,
- Abstract要約: 構造化された事実制約に縛られた不完全な知識ネットワークからなるベンチマークである知識クロスワードを提案する。
幾何学的知識推論の新しい設定は、既存の原子/線形マルチホップQAを超える新しいLM能力を必要とする。
我々は,既存のLLMと知識クロスワードのアプローチを評価するために,広範囲な実験を行っている。
- 参考スコア(独自算出の注目度): 49.23348672822087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Knowledge Crosswords, a geometric knowledge reasoning benchmark consisting of incomplete knowledge networks bounded by structured factual constraints, where LLMs are tasked with inferring the missing facts to meet all constraints. The novel setting of geometric knowledge reasoning necessitates new LM abilities beyond existing atomic/linear multi-hop QA, such as backtracking, verifying facts and constraints, reasoning with uncertainty, and more. Knowledge Crosswords contains 2,101 individual problems, covering diverse knowledge domains, and is further divided into three difficulty levels. We conduct extensive experiments to evaluate existing LLMs and approaches on Knowledge Crosswords. Results demonstrate that baseline approaches struggle with larger knowledge networks and semantically-equivalent entity distractors. In light of their limitations, we propose two new approaches, Staged Prompting and Verify-All, to augment LLMs' abilities for error-aware backtracking and constraint verification. Our Verify-All significantly outperforms prior methods and is more robust towards problems in the hard subset. Further analysis shows that geometric knowledge reasoning poses new challenges to LLMs' knowledge abilities, particularly in robustness towards varying option orders, complex structural constraints in knowledge networks, "none of the above" scenarios, and more.
- Abstract(参考訳): 構造化された事実制約に縛られた不完全な知識ネットワークからなる幾何学的知識推論ベンチマークである知識クロスワードを提案する。
幾何学的知識推論の新しい設定は、バックトラック、事実と制約の検証、不確実性のある推論など、既存の原子/線形マルチホップQAを超える新しいLM能力を必要とする。
知識クロスワードには2,101の個別の問題が含まれており、多様な知識領域をカバーし、さらに3つの難易度に分けられる。
我々は,既存のLLMと知識クロスワードのアプローチを評価するために,広範囲な実験を行っている。
その結果、ベースラインアプローチは、より大きな知識ネットワークと意味論的に等価なエンティティ・イントラクタに苦しむことを示した。
これらの制約を考慮して,LLMの誤り認識バックトラックと制約検証能力を高めるために,Staged Prompting と Verify-All という2つの新しい手法を提案する。
私たちのVerify-Allは従来のメソッドよりも大幅に優れており、ハードサブセットの問題に対してより堅牢です。
さらなる分析により、幾何学的知識推論はLLMの知識能力、特に様々な選択肢順序に対する堅牢性、知識ネットワークにおける複雑な構造的制約、上述のシナリオに新しい課題をもたらすことが示されている。
関連論文リスト
- Investigating How Large Language Models Leverage Internal Knowledge to Perform Complex Reasoning [30.349165483935682]
我々は,DepthQAデータセットを開発し,質問を3つの深さに分解する: (i)概念的知識の想起, (ii)手続き的知識の適用, (iii)戦略的知識の分析。
我々の分析では、より小さなモデルはより大きなモデルよりも多くの相違があることが示されている。
論文 参考訳(メタデータ) (2024-06-27T19:29:36Z) - Untangle the KNOT: Interweaving Conflicting Knowledge and Reasoning Skills in Large Language Models [51.72963030032491]
大規模言語モデル(LLM)の知識文書は、時代遅れや誤った知識のためにLLMの記憶と矛盾する可能性がある。
我々は,知識紛争解決のための新しいデータセットKNOTを構築した。
論文 参考訳(メタデータ) (2024-04-04T16:40:11Z) - KnowTuning: Knowledge-aware Fine-tuning for Large Language Models [83.5849717262019]
本研究では,LLMの微粒で粗粒な知識認識を改善するための知識認識ファインタニング(KnowTuning)手法を提案する。
KnowTuningは、きめ細かい事実評価の下で、より少ない事実エラー率で多くの事実を生成する。
論文 参考訳(メタデータ) (2024-02-17T02:54:32Z) - Don't Hallucinate, Abstain: Identifying LLM Knowledge Gaps via Multi-LLM Collaboration [39.603649838876294]
本研究では,LLMの知識ギャップを同定し,知識ギャップが存在する場合の質問への回答を控えるアプローチについて検討する。
保留集合上での自己回帰と過度信頼の失敗により、我々は2つの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-01T06:11:49Z) - DeepEdit: Knowledge Editing as Decoding with Constraints [118.78008395850888]
多段階推論における知識の編集は、大規模言語モデル(LLM)の知識編集(KE)において大きな課題となっている。
我々は、深度優先探索により新しい知識を持つコヒーレント推論チェーンを生成するLLMの能力を高める新しいKEフレームワークDEEPEDITを提案する。
DEEPEDITに加えて, MQUAKE-2002 と MQUAKE-HARD という2つの新しい KE ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-01-19T03:48:27Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Beyond Factuality: A Comprehensive Evaluation of Large Language Models
as Knowledge Generators [78.63553017938911]
大規模言語モデル(LLM)は、下流の知識集約タスクのための情報検索技術より優れている。
しかし、コミュニティの懸念は、この無検閲の知識を使用することの事実と潜在的意味について多岐にわたる。
本研究では,6つの重要な視点から生成した知識を評価するために設計されたCONNERを紹介する。
論文 参考訳(メタデータ) (2023-10-11T08:22:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。