Fugu-MT 論文翻訳(概要): Evaluating and Enhancing Large Language Models for Conversational Reasoning on Knowledge Graphs

論文の概要: Evaluating and Enhancing Large Language Models for Conversational Reasoning on Knowledge Graphs

arxiv url: http://arxiv.org/abs/2312.11282v2
Date: Sun, 4 Feb 2024 03:45:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 03:45:17.127402
Title: Evaluating and Enhancing Large Language Models for Conversational Reasoning on Knowledge Graphs
Title（参考訳）: 知識グラフを用いた会話推論のための大規模言語モデルの評価と強化
Authors: Yuxuan Huang, Lida Shi, Anqi Liu and Hao Xu
Abstract要約: 我々は知識グラフ(KG)を用いた現在最先端の大規模言語モデル(GPT-4)の会話推論能力を評価する。我々は,KG経路の正確かつ適応的な予測を行うために設計された基底KG推論エージェントであるLLM-ARKを紹介する。 LLaMA-2-7B-ARKは、現在の最先端モデルよりも5.28ポイント優れており、ターゲット@1評価基準では36.39%である。
参考スコア（独自算出の注目度）: 15.480976967871632
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The development of large language models (LLMs) has been catalyzed by advancements in pre-training techniques. These models have demonstrated robust reasoning capabilities through manually designed prompts. In this work, we evaluate the conversational reasoning capabilities of the current state-of-the-art LLM (GPT-4) on knowledge graphs (KGs). However, the performance of LLMs is constrained due to a lack of KG environment awareness and the difficulties in developing effective optimization mechanisms for intermediary reasoning stages. We further introduce LLM-ARK, a LLM grounded KG reasoning agent designed to deliver precise and adaptable predictions on KG paths. LLM-ARK leverages Full Textual Environment (FTE) prompt to assimilate state information within each reasoning step. We reframe the challenge of multi-hop reasoning on the KG as a sequential decision-making task. Utilizing the Proximal Policy Optimization (PPO) online policy gradient reinforcement learning algorithm, our model is optimized to learn from rich reward signals. Additionally, we conduct an evaluation of our model and GPT-4 on the OpenDialKG dataset. The experimental results reveal that LLaMA-2-7B-ARK outperforms the current state-of-the-art model by 5.28 percentage points, with a performance rate of 36.39% on the target@1 evaluation metric. Meanwhile, GPT-4 scored 14.91%, further demonstrating the effectiveness of our method. Our code is available on GitHub (https://github.com/Aipura/LLM-ARK) for further access.
Abstract（参考訳）: 大規模言語モデル(LLM)の開発は、事前学習技術の進歩によって触媒されている。これらのモデルは手動で設計したプロンプトを通じて堅牢な推論能力を示している。本研究では,知識グラフ(KG)上で現在最先端のLLM(GPT-4)の会話推論能力を評価する。しかし, LLMの性能は, KG環境認識の欠如と中間推論段階の効率的な最適化メカニズムの開発に困難があるため, 制約されている。さらに,LLMを基盤としたKG推論エージェントであるLLM-ARKを導入し,KG経路の正確かつ適応的な予測を行う。 LLM-ARKはFTE(Full Textual Environment)のプロンプトを利用して、各推論ステップ内の状態を同化する。逐次意思決定タスクとして,kgにおけるマルチホップ推論の課題を再検討する。 PPO(Proximal Policy Optimization)オンラインポリシー勾配強化学習アルゴリズムを用いて,豊かな報酬信号から学習できるように最適化した。さらに、OpenDialKGデータセット上で、モデルとGPT-4の評価を行う。実験の結果、LLaMA-2-7B-ARKは現在の最先端モデルよりも5.28ポイント優れており、ターゲット@1評価基準では36.39%であることがわかった。一方, GPT-4は14.91%のスコアを示し, さらに本手法の有効性を示した。私たちのコードはGitHub(https://github.com/Aipura/LLM-ARK)からアクセスできます。

関連論文リスト

When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。 Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文参考訳（メタデータ） (2025-08-15T10:32:50Z)
Large Language Models' Reasoning Stalls: An Investigation into the Capabilities of Frontier Models [0.18416014644193066]
我々は2023年12月から2024年8月にかけて,PRONTOQAスチームローラーの推理問題に対するState of the Artモデルの性能評価を行った。以上の結果から, LLM推論能力の向上は9カ月間に停滞していることが明らかとなった。
論文参考訳（メタデータ） (2025-05-26T08:34:07Z)
Graph-Augmented Reasoning: Evolving Step-by-Step Knowledge Graph Retrieval for LLM Reasoning [55.6623318085391]
最近の大規模言語モデル(LLM)推論は、限られたドメイン知識、幻覚への感受性、制約された推論深さに悩まされている。本稿では、ステップワイズ知識グラフ検索とステップワイズ推論の統合に関する最初の研究について述べる。本稿では,プロセス指向の知識グラフ構築を中心としたフレームワークであるKG-RAR,階層的検索戦略,検索後処理と報酬モデルを提案する。
論文参考訳（メタデータ） (2025-03-03T15:20:41Z)
Supervised Fine-Tuning LLMs to Behave as Pedagogical Agents in Programming Education [41.69192181482715]
本稿では,プログラミング教育のための微調整型大規模言語モデル(LLM)である GuideLM の開発について述べる。 GuideLM は LLM を利用した教育用 C コンパイラ C コンパイラ (DCC) に統合され,音声による誤り説明を生成する。基礎となるOpenAIモデルと比較し,各モデル毎の400応答の専門的分析を行った。その結果, GuideLM と GuideLM-mini は, GPT-4o と比較して, ソクラテス的指導の8%, 語学経済の58%が向上した。
論文参考訳（メタデータ） (2025-02-27T21:23:56Z)
OCEAN: Offline Chain-of-thought Evaluation and Alignment in Large Language Models [68.17018458283651]
本研究は,LLMのチェーン・オブ・思想能力のオフライン評価に焦点をあてる。我々は知識グラフ(例えばWikidata5m)を使って、生成された思考の連鎖に対するフィードバックを提供する。提案手法に基づいてLCMを最適化する方法を示す。
論文参考訳（メタデータ） (2024-10-31T07:48:44Z)
Paths-over-Graph: Knowledge Graph Empowered Large Language Model Reasoning [19.442426875488675]
我々は,KGから知識推論経路を統合することで,Large Language Models(LLM)推論を強化する新しい手法であるPaths-over-Graph(PoG)を提案する。 PoGは3段階の動的マルチホップパス探索を通じて、マルチホップとマルチエンタリティの問題に取り組む。実験では、GPT-3.5-TurboのPoGは、GPT-4のToGを最大23.9%上回った。
論文参考訳（メタデータ） (2024-10-18T06:57:19Z)
GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。 GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文参考訳（メタデータ） (2024-10-11T03:05:06Z)
Can Knowledge Graphs Make Large Language Models More Trustworthy? An Empirical Study over Open-ended Question Answering [35.2451096137883]
我々は、知識グラフ(KG)で強化された大規模言語モデル(LLM)を評価するために特別に設計された新しいベンチマークであるOKGQAを紹介する。 OKGQAは、様々なタイプの質問を使って実践的なアプリケーションの複雑さを深く反映するように設計されており、幻覚の減少と推論能力の強化の両方を測定するために特定のメトリクスを取り入れている。また,KGのセマンティクスと構造が意図的に乱れ,汚染された場合のモデル性能を評価するためのOKGQA-Pを提案する。
論文参考訳（メタデータ） (2024-10-10T16:29:21Z)
PRAGyan -- Connecting the Dots in Tweets [0.0]
本研究では、ツイートデータセットの因果解析を行うために、知識グラフ(KG)とLarge Language Models(LLM)の統合について検討する。我々は、Neo4j(PRAGyan)データフォーマットに格納されたKGを利用して、因果推論に関連するコンテキストを検索する。
論文参考訳（メタデータ） (2024-07-18T21:49:32Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
KG-Agent: An Efficient Autonomous Agent Framework for Complex Reasoning over Knowledge Graph [134.8631016845467]
我々は、KG-Agentと呼ばれる自律LLMベースのエージェントフレームワークを提案する。 KG-Agentでは、LLM、多機能ツールボックス、KGベースのエグゼキュータ、知識メモリを統合する。有効性を保証するため、プログラム言語を利用してKG上のマルチホップ推論プロセスを定式化する。
論文参考訳（メタデータ） (2024-02-17T02:07:49Z)
LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。 GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文参考訳（メタデータ） (2024-01-01T13:53:53Z)
GLoRE: Evaluating Logical Reasoning of Large Language Models [29.914546407784552]
GLoREは3種類のタスクにまたがる12のデータセットからなるベンチマークである。 ChatGPTとGPT-4は論理的推論の強い能力を示し、GPT-4はChatGPTをはるかに上回っている。本稿では,ChatGPTの精度を高める自己整合性探索法と,オープンLLMの性能を向上させる微調整法を提案する。
論文参考訳（メタデータ） (2023-10-13T13:52:15Z)
GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond [29.778018058541676]
GPT-Fathomは、OpenAI Evals上に構築された大規模言語モデル(LLM)のための、オープンソースで再現可能な評価スイートである。私たちは,7つの機能カテゴリにまたがる20以上のベンチマークで,10以上のLLMとOpenAIのレガシモデルを評価しました。
論文参考訳（メタデータ） (2023-09-28T16:43:35Z)
Knowledge-Augmented Reasoning Distillation for Small Language Models in Knowledge-Intensive Tasks [90.11273439036455]
大規模言語モデル(LLM)は知識集約推論タスクにおいて有望なパフォーマンスを示している。外部知識ベースから得られた知識を付加したLPMから理性を生成するための,小型LMを微調整する新しい手法であるKARDを提案する。我々は,KARDが知識集約型推論データセットにおいて,小さなT5モデルとGPTモデルの性能を著しく向上させることを示す。
論文参考訳（メタデータ） (2023-05-28T13:00:00Z)
LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities [66.36633042421387]
知識グラフ(KG)の構築と推論のための大規模言語モデル(LLM)の評価。我々は,LLMと外部ソースを用いたマルチエージェントベースのアプローチであるAutoKGを提案し,KGの構築と推論を行う。
論文参考訳（メタデータ） (2023-05-22T15:56:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。