論文の概要: Evaluating and Enhancing Large Language Models for Conversational
Reasoning on Knowledge Graphs
- arxiv url: http://arxiv.org/abs/2312.11282v2
- Date: Sun, 4 Feb 2024 03:45:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 03:45:17.127402
- Title: Evaluating and Enhancing Large Language Models for Conversational
Reasoning on Knowledge Graphs
- Title(参考訳): 知識グラフを用いた会話推論のための大規模言語モデルの評価と強化
- Authors: Yuxuan Huang, Lida Shi, Anqi Liu and Hao Xu
- Abstract要約: 我々は知識グラフ(KG)を用いた現在最先端の大規模言語モデル(GPT-4)の会話推論能力を評価する。
我々は,KG経路の正確かつ適応的な予測を行うために設計された基底KG推論エージェントであるLLM-ARKを紹介する。
LLaMA-2-7B-ARKは、現在の最先端モデルよりも5.28ポイント優れており、ターゲット@1評価基準では36.39%である。
- 参考スコア(独自算出の注目度): 15.480976967871632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of large language models (LLMs) has been catalyzed by
advancements in pre-training techniques. These models have demonstrated robust
reasoning capabilities through manually designed prompts. In this work, we
evaluate the conversational reasoning capabilities of the current
state-of-the-art LLM (GPT-4) on knowledge graphs (KGs). However, the
performance of LLMs is constrained due to a lack of KG environment awareness
and the difficulties in developing effective optimization mechanisms for
intermediary reasoning stages. We further introduce LLM-ARK, a LLM grounded KG
reasoning agent designed to deliver precise and adaptable predictions on KG
paths. LLM-ARK leverages Full Textual Environment (FTE) prompt to assimilate
state information within each reasoning step. We reframe the challenge of
multi-hop reasoning on the KG as a sequential decision-making task. Utilizing
the Proximal Policy Optimization (PPO) online policy gradient reinforcement
learning algorithm, our model is optimized to learn from rich reward signals.
Additionally, we conduct an evaluation of our model and GPT-4 on the OpenDialKG
dataset. The experimental results reveal that LLaMA-2-7B-ARK outperforms the
current state-of-the-art model by 5.28 percentage points, with a performance
rate of 36.39% on the target@1 evaluation metric. Meanwhile, GPT-4 scored
14.91%, further demonstrating the effectiveness of our method. Our code is
available on GitHub (https://github.com/Aipura/LLM-ARK) for further access.
- Abstract(参考訳): 大規模言語モデル(LLM)の開発は、事前学習技術の進歩によって触媒されている。
これらのモデルは手動で設計したプロンプトを通じて堅牢な推論能力を示している。
本研究では,知識グラフ(KG)上で現在最先端のLLM(GPT-4)の会話推論能力を評価する。
しかし, LLMの性能は, KG環境認識の欠如と中間推論段階の効率的な最適化メカニズムの開発に困難があるため, 制約されている。
さらに,LLMを基盤としたKG推論エージェントであるLLM-ARKを導入し,KG経路の正確かつ適応的な予測を行う。
LLM-ARKはFTE(Full Textual Environment)のプロンプトを利用して、各推論ステップ内の状態を同化する。
逐次意思決定タスクとして,kgにおけるマルチホップ推論の課題を再検討する。
PPO(Proximal Policy Optimization)オンラインポリシー勾配強化学習アルゴリズムを用いて,豊かな報酬信号から学習できるように最適化した。
さらに、OpenDialKGデータセット上で、モデルとGPT-4の評価を行う。
実験の結果、LLaMA-2-7B-ARKは現在の最先端モデルよりも5.28ポイント優れており、ターゲット@1評価基準では36.39%であることがわかった。
一方, GPT-4は14.91%のスコアを示し, さらに本手法の有効性を示した。
私たちのコードはGitHub(https://github.com/Aipura/LLM-ARK)からアクセスできます。
関連論文リスト
- Investigating Automatic Scoring and Feedback using Large Language Models [46.1232919707345]
本稿では,PEFTに基づく量子化モデルの有効性について検討する。
その結果, 微調整LDMによる評価は精度が高く, 平均的に3%未満の誤差が得られた。
論文 参考訳(メタデータ) (2024-05-01T16:13:54Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案手法は,GSM8K,MATH,SciQ上でのMistral-7B Supervised Fine-Tuning(SFT)ベースラインよりも優れている。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - KG-Agent: An Efficient Autonomous Agent Framework for Complex Reasoning
over Knowledge Graph [134.8631016845467]
我々は、KG-Agentと呼ばれる自律LLMベースのエージェントフレームワークを提案する。
KG-Agentでは、LLM、多機能ツールボックス、KGベースのエグゼキュータ、知識メモリを統合する。
有効性を保証するため、プログラム言語を利用してKG上のマルチホップ推論プロセスを定式化する。
論文 参考訳(メタデータ) (2024-02-17T02:07:49Z) - ReasoningLM: Enabling Structural Subgraph Reasoning in Pre-trained
Language Models for Question Answering over Knowledge Graph [142.42275983201978]
本稿では,構造化推論を行うためのGNNを模倣するサブグラフ認識型自己認識機構を提案する。
また、モデルパラメータを2万のサブグラフで合成した質問に適応するための適応チューニング戦略も採用する。
実験により、ReasoningLMは、更新されたパラメータが少なく、トレーニングデータが少ない場合でも、最先端のモデルを大きなマージンで上回っていることが示された。
論文 参考訳(メタデータ) (2023-12-30T07:18:54Z) - GLoRE: Evaluating Logical Reasoning of Large Language Models [29.914546407784552]
GLoREは3種類のタスクにまたがる12のデータセットからなるベンチマークである。
ChatGPTとGPT-4は論理的推論の強い能力を示し、GPT-4はChatGPTをはるかに上回っている。
本稿では,ChatGPTの精度を高める自己整合性探索法と,オープンLLMの性能を向上させる微調整法を提案する。
論文 参考訳(メタデータ) (2023-10-13T13:52:15Z) - GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond [29.778018058541676]
GPT-Fathomは、OpenAI Evals上に構築された大規模言語モデル(LLM)のための、オープンソースで再現可能な評価スイートである。
私たちは,7つの機能カテゴリにまたがる20以上のベンチマークで,10以上のLLMとOpenAIのレガシモデルを評価しました。
論文 参考訳(メタデータ) (2023-09-28T16:43:35Z) - Let's Chat to Find the APIs: Connecting Human, LLM and Knowledge Graph
through AI Chain [21.27256145010061]
本稿では,APIレコメンデーションのための知識誘導型クエリ明確化手法を提案する。
我々は、知識グラフ(KG)によって導かれる大きな言語モデル(LLM)を用いて、語彙外障害(OOV)を克服する。
我々のアプローチは、5つのステップからなるAIチェーンとして設計されており、それぞれが別々のLLMコールによって処理される。
論文 参考訳(メタデータ) (2023-09-28T03:31:01Z) - Think-on-Graph: Deep and Responsible Reasoning of Large Language Model on Knowledge Graph [29.447300472617826]
Think-on-Graph (ToG)は、大規模言語モデル(LLM)における外部知識グラフ(KG)に対する新しいアプローチである。
ToGはKG上でビームサーチを繰り返し実行し、最も有望な推論経路を発見し、最も可能性の高い推論結果を返す。
ToGは、以前のSOTAが追加トレーニングに依存する9つのデータセットのうち6つで、全体的なSOTAを達成する。
論文 参考訳(メタデータ) (2023-07-15T03:31:38Z) - Knowledge-Augmented Reasoning Distillation for Small Language Models in
Knowledge-Intensive Tasks [90.11273439036455]
大規模言語モデル(LLM)は知識集約推論タスクにおいて有望なパフォーマンスを示している。
外部知識ベースから得られた知識を付加したLPMから理性を生成するための,小型LMを微調整する新しい手法であるKARDを提案する。
我々は,KARDが知識集約型推論データセットにおいて,小さなT5モデルとGPTモデルの性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:00:00Z) - LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities
and Future Opportunities [68.86209486449924]
知識グラフ(KG)の構築と推論のための大規模言語モデル(LLM)の評価。
我々は,LLMと外部ソースを用いたマルチエージェントベースのアプローチであるAutoKGを提案し,KGの構築と推論を行う。
論文 参考訳(メタデータ) (2023-05-22T15:56:44Z) - Great Truths are Always Simple: A Rather Simple Knowledge Encoder for
Enhancing the Commonsense Reasoning Capacity of Pre-Trained Models [89.98762327725112]
自然言語における常識推論は、人工知能システムの望ましい能力である。
複雑なコモンセンス推論タスクを解決するための典型的な解決策は、知識対応グラフニューラルネットワーク(GNN)エンコーダで事前訓練された言語モデル(PTM)を強化することである。
有効性にもかかわらず、これらのアプローチは重いアーキテクチャ上に構築されており、外部知識リソースがPTMの推論能力をどのように改善するかを明確に説明できない。
論文 参考訳(メタデータ) (2022-05-04T01:27:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。