論文の概要: Exploring the Limitations of Graph Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2402.01805v1
- Date: Fri, 2 Feb 2024 09:45:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 01:52:41.529397
- Title: Exploring the Limitations of Graph Reasoning in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるグラフ推論の限界を探る
- Authors: Palaash Agrawal, Shavak Vasania and Cheston Tan
- Abstract要約: グラフ推論の問題から,5つの異なる大言語モデルに対するグラフ推論の深さを検証した。
グラフのサイズやkショットプロンプトの形式など,さまざまな設定におけるモデルの性能を解析する。
PathCompareと呼ばれる新しいプロンプト技術を提案し、標準プロンプトとCoTと比較してLCMの性能が顕著に向上したことを示す。
- 参考スコア(独自算出の注目度): 5.256237513030104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained Large Language Models have demonstrated various types of reasoning
capabilities through language-based prompts alone. However, in this paper, we
test the depth of graph reasoning for 5 different LLMs (GPT-4, GPT-3.5,
Claude-2, Llama-2 and Palm-2) through the problems of graph reasoning. In
particular, we design 10 distinct problems of graph traversal, each
representing increasing levels of complexity. Further, we analyze the
performance of models across various settings such as varying sizes of graphs
as well as different forms of k-shot prompting. We highlight various
limitations, biases, and properties of LLMs through this benchmarking process,
such as an inverse relation to the average degrees of freedom of traversal per
node in graphs, the overall negative impact of k-shot prompting on graph
reasoning tasks, and a positive response bias which prevents LLMs from
identifying the absence of a valid solution. Finally, we propose a new
prompting technique specially designed for graph traversal tasks, known as
PathCompare, which shows a notable increase in the performance of LLMs in
comparison to standard prompting and CoT.
- Abstract(参考訳): 事前訓練された大規模言語モデルは、言語ベースのプロンプトだけで様々なタイプの推論能力を示した。
しかし,本稿では,グラフ推論の問題から,5種類のLLM(GPT-4,GPT-3.5,Claude-2,Llama-2,Palm-2)に対するグラフ推論の深さを検証した。
特に、グラフトラバースの10の異なる問題を設計し、それぞれが複雑さのレベルを増すことを示す。
さらに,グラフのサイズやkショットプロンプトの異なる形態など,様々な設定におけるモデルの性能を解析した。
例えば、グラフ内のノード毎のトラバース自由度の平均値に対する逆関係、グラフ推論タスクにおけるkショットの全体的な負の影響、LLMが有効な解の欠如を識別するのを防ぐ正の応答バイアスなどである。
最後に,PathCompareと呼ばれるグラフトラバースタスクに特化して設計された新しいプロンプト手法を提案し,標準プロンプトやCoTと比較して,LCMの性能が顕著に向上したことを示す。
関連論文リスト
- Decomposing Label Space, Format and Discrimination: Rethinking How LLMs Respond and Solve Tasks via In-Context Learning [41.606494950216764]
In-context Learning (ICL)は、スケールアップされた大規模言語モデル(LLM)の開発と共に強力な能力として登場した。
本稿では,ICLの全体的な性能をラベル空間,フォーマット,識別の3次元に分解する。
実演は言語モデルの差別的知識を喚起する上で,限界的な影響があることが判明した。
論文 参考訳(メタデータ) (2024-04-11T08:20:10Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - Structure Guided Prompt: Instructing Large Language Model in Multi-Step
Reasoning by Exploring Graph Structure of the Text [44.81698187939784]
本稿では,大規模言語モデル(LLM)の多段階推論能力向上を目的としたフレームワークであるStructure Guided Promptを紹介する。
実験の結果,このフレームワークはLLMの推論能力を大幅に向上し,より広い範囲の自然言語シナリオを拡張できることがわかった。
論文 参考訳(メタデータ) (2024-02-20T22:56:23Z) - Contrastive Instruction Tuning [66.6226795160117]
本稿では,意味論的に等価な命令-インスタンスペアの隠れ表現の類似性を最大化するコントラスト的命令チューニングを提案する。
PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文 参考訳(メタデータ) (2024-02-17T00:09:32Z) - Graph-enhanced Large Language Models in Asynchronous Plan Reasoning [19.499980585836834]
大規模言語モデル(LLM)は,タスク解決プロセスに関するイラストが提供されないと動作が悪くなる。
そこで我々は,グラフと自然言語のプロンプトを組み合わせ,最先端の結果を得るPlan Like a Graph (PLaG) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T08:26:33Z) - Integrating Graphs with Large Language Models: Methods and Prospects [68.37584693537555]
大規模言語モデル (LLMs) が最前線として登場し、様々なアプリケーションにおいて非並列の長所を示している。
LLMとグラフ構造化データを組み合わせることは、非常に興味深いトピックです。
本稿では、そのような統合を2つの主要なカテゴリに分岐する。
論文 参考訳(メタデータ) (2023-10-09T07:59:34Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - Table Meets LLM: Can Large Language Models Understand Structured Table
Data? A Benchmark and Empirical Study [47.6239689986714]
大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になってきている。
我々は,LLMの構造理解能力(SUC)を評価するためのベンチマークを設計することで,これを理解しようとしている。
その結果、テーブル入力形式、コンテンツ順序、ロールプロンプト、パーティションマークなど、いくつかの入力選択によってパフォーマンスが変化していることが判明した。
論文 参考訳(メタデータ) (2023-05-22T14:23:46Z) - Can Language Models Solve Graph Problems in Natural Language? [51.28850846990929]
大型言語モデル (LLM) は暗黙的なグラフィカル構造を持つ様々なタスクに採用されている。
自然言語をシミュレーションするグラフベース問題解決のベンチマークであるNLGraphを提案する。
論文 参考訳(メタデータ) (2023-05-17T08:29:21Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z) - Selection-Inference: Exploiting Large Language Models for Interpretable
Logical Reasoning [14.663216851932646]
言語モデルは1ステップの推論タスクでかなりうまく機能する傾向があるが、より複雑な問題を解決するために複数の推論ステップをチェーン化するのに苦労している。
本稿では,事前学習したLLMを汎用処理モジュールとして活用する選択推論(SI)フレームワークを提案する。
5ショットの一般化設定でSIフレームワーク内で使用する 7B パラメータ LLM が微調整なしで,100% 以上の性能向上が得られることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。