論文の概要: Walk Wisely on Graph: Knowledge Graph Reasoning with Dual Agents via Efficient Guidance-Exploration
- arxiv url: http://arxiv.org/abs/2408.01880v3
- Date: Tue, 17 Dec 2024 16:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:55:58.271770
- Title: Walk Wisely on Graph: Knowledge Graph Reasoning with Dual Agents via Efficient Guidance-Exploration
- Title(参考訳): グラフ上でのウォークワイズ:効率的な誘導探索による2元エージェントによる知識グラフ推論
- Authors: Zijian Wang, Bin Wang, Haifeng Jing, Huayu Li, Hongbo Dou,
- Abstract要約: 階層的強化学習(HRL)に基づく二重エージェントを用いたマルチホップ推論モデルを提案する。
FULORAは、二重エージェント間のeFficient GUidance-ExpLORAtionによる上記の推論課題に取り組む。
3つの実単語知識グラフデータセットで実施された実験では、FULORAがRLベースのベースラインより優れていることが示された。
- 参考スコア(独自算出の注目度): 6.137115941053124
- License:
- Abstract: Recent years, multi-hop reasoning has been widely studied for knowledge graph (KG) reasoning due to its efficacy and interpretability. However, previous multi-hop reasoning approaches are subject to two primary shortcomings. First, agents struggle to learn effective and robust policies at the early phase due to sparse rewards. Second, these approaches often falter on specific datasets like sparse knowledge graphs, where agents are required to traverse lengthy reasoning paths. To address these problems, we propose a multi-hop reasoning model with dual agents based on hierarchical reinforcement learning (HRL), which is named FULORA. FULORA tackles the above reasoning challenges by eFficient GUidance-ExpLORAtion between dual agents. The high-level agent walks on the simplified knowledge graph to provide stage-wise hints for the low-level agent walking on the original knowledge graph. In this framework, the low-level agent optimizes a value function that balances two objectives: (1) maximizing return, and (2) integrating efficient guidance from the high-level agent. Experiments conducted on three real-word knowledge graph datasets demonstrate that FULORA outperforms RL-based baselines, especially in the case of long-distance reasoning.
- Abstract(参考訳): 近年,知識グラフ(KG)に対するマルチホップ推論は,その有効性と解釈可能性から広く研究されている。
しかし、従来のマルチホップ推論アプローチには2つの主要な欠点がある。
まず、エージェントは、まばらな報酬のために、初期段階で効果的で堅牢なポリシーを学ぶのに苦労する。
第二に、これらのアプローチは、エージェントが長い推論パスを横切る必要があるスパースナレッジグラフのような特定のデータセットに干渉することが多い。
これらの問題に対処するために,階層的強化学習(HRL)に基づく二重エージェントを用いたマルチホップ推論モデル FULORA を提案する。
FULORAは、二重エージェント間のeFficient GUidance-ExpLORAtionによる上記の推論課題に取り組む。
高レベルエージェントは、単純化された知識グラフの上を歩き、元の知識グラフの上を歩く低レベルエージェントの段階的なヒントを提供する。
このフレームワークでは,(1)リターンの最大化,(2)高レベルのエージェントからの効率的なガイダンスの統合という,2つの目的のバランスをとる値関数を最適化する。
3つの実単語知識グラフデータセットによる実験により、FULORAは、特に長距離推論の場合、RLベースのベースラインより優れていることが示された。
関連論文リスト
- Causal Graphs Meet Thoughts: Enhancing Complex Reasoning in Graph-Augmented LLMs [4.701165676405066]
関連情報を検索するだけでなく、因果推論や説明可能性の提供も重要である。
本稿では,大きな知識グラフをフィルタして原因効果エッジを強調する新しいパイプラインを提案する。
医学的質問応答タスクの実験では、一貫した利得を示し、最大10%の絶対的な改善がある。
論文 参考訳(メタデータ) (2025-01-24T19:31:06Z) - Reasoning with Graphs: Structuring Implicit Knowledge to Enhance LLMs Reasoning [73.2950349728376]
大規模言語モデル(LLM)は、幅広いタスクで顕著な成功を収めている。
しかし、彼らは情報片間の関係を理解し、推論する必要があるタスクの推論において、依然として課題に直面している。
この課題は、論理的推論やマルチホップ質問応答など、多段階プロセスに関わるタスクにおいて特に顕著である。
本稿では、まず文脈から明示的なグラフを構築することにより、グラフを用いた推論(RwG)を提案する。
論文 参考訳(メタデータ) (2025-01-14T05:18:20Z) - Path-of-Thoughts: Extracting and Following Paths for Robust Relational Reasoning with Large Language Models [62.12031550252253]
本稿では,関係推論に対処するための新しいフレームワークであるPath-of-Thoughts(PoT)を提案する。
PoTは、問題コンテキスト内の重要なエンティティ、関係、属性を識別するタスクに依存しないグラフを効率的に抽出する。
PoTは、提案された質問に対応するグラフ内の関連する推論連鎖を特定し、潜在的な答えの推論を容易にする。
論文 参考訳(メタデータ) (2024-12-23T20:27:12Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - CADRL: Category-aware Dual-agent Reinforcement Learning for Explainable Recommendations over Knowledge Graphs [34.83895369861899]
本稿では,知識グラフに対する説明可能なレコメンデーションのためのカテゴリ認識型二エージェント強化学習モデルを提案する。
本モデルは,(1)近隣のエンティティやカテゴリからコンテキスト対応のアイテム表現を共同でキャプチャするカテゴリ対応グラフニューラルネットワークと,(2)2つのエージェントが効率的に長い経路をたどって適切な項目を探索するデュアルエージェントRLフレームワークの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-08-06T13:07:08Z) - DARA: Decomposition-Alignment-Reasoning Autonomous Language Agent for Question Answering over Knowledge Graphs [70.54226917774933]
本稿では,DARA(Decomposition Alignment-Reasoning Agent)フレームワークを提案する。
DARAは2つのメカニズムを通じて、質問を形式的なクエリに効果的に解析する。
我々は,DARAがKGQAの最先端列挙およびランク付けに基づく手法に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-11T09:09:37Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - RACCER: Towards Reachable and Certain Counterfactual Explanations for
Reinforcement Learning [2.0341936392563063]
本稿では,RLエージェントの動作に対する反実的説明を生成するための,RACCERを提案する。
木探索を用いて、定義された特性に基づいて最も適切なカウンターファクトを見つける。
我々はRACCERを2つのタスクで評価し、また、RL固有の対策がエージェントの行動をよりよく理解するのに役立つことを示す。
論文 参考訳(メタデータ) (2023-03-08T09:47:00Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Learning to Walk with Dual Agents for Knowledge Graph Reasoning [20.232810842082674]
マルチホップ推論アプローチは、短い推論パスでのみうまく機能し、パスの長さが増加するとターゲットエンティティを見逃しがちである。
そこで我々は,2つのエージェント(GIANTとDWARF)が共同でKGの上を歩き,協調して回答を検索するように訓練する,二重エージェント強化学習フレームワークを提案する。
提案手法は,クラスタレベルの経路を素早く探索するエージェント(GIANT)の1つを割り当て,別のエージェント(DWARF)にステージワイドヒントを提供することによって,長い経路における推論課題に対処する。
論文 参考訳(メタデータ) (2021-12-23T23:03:24Z) - Agent-Centric Representations for Multi-Agent Reinforcement Learning [12.577354830985012]
完全協調型マルチエージェント強化学習において,対象中心表現が有用であるかどうかを検討する。
具体的には、RLアルゴリズムにエージェント中心の誘導バイアスを組み込む2つの方法を検討する。
これらのアプローチをGoogle Research Football環境およびDeepMind Lab 2D上で評価します。
論文 参考訳(メタデータ) (2021-04-19T15:43:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。