論文の概要: Walk Wisely on Graph: Knowledge Graph Reasoning with Dual Agents via Efficient Guidance-Exploration
- arxiv url: http://arxiv.org/abs/2408.01880v1
- Date: Sat, 3 Aug 2024 23:15:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-06 18:01:12.249694
- Title: Walk Wisely on Graph: Knowledge Graph Reasoning with Dual Agents via Efficient Guidance-Exploration
- Title(参考訳): グラフ上でのウォークワイズ:効率的な誘導探索による2元エージェントによる知識グラフ推論
- Authors: Zijian Wang, Bin Wang, Haifeng Jing, Huayu Li, Hongbo Dou,
- Abstract要約: 階層的強化学習(HRL)に基づく二重エージェントを用いたマルチホップ推論モデルを提案する。
FULORAは、二重エージェント間のeFficient GUidance-ExpLORAtionによる上記の推論課題に取り組む。
3つの実単語知識グラフデータセットで実施された実験では、FULORAがRLベースのベースラインより優れていることが示された。
- 参考スコア(独自算出の注目度): 6.137115941053124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years, multi-hop reasoning has been widely studied for knowledge graph (KG) reasoning due to its efficacy and interpretability. However, previous multi-hop reasoning approaches are subject to two primary shortcomings. First, agents struggle to learn effective and robust policies at the early phase due to sparse rewards. Second, these approaches often falter on specific datasets like sparse knowledge graphs, where agents are required to traverse lengthy reasoning paths. To address these problems, we propose a multi-hop reasoning model with dual agents based on hierarchical reinforcement learning (HRL), which is named FULORA. FULORA tackles the above reasoning challenges by eFficient GUidance-ExpLORAtion between dual agents. The high-level agent walks on the simplified knowledge graph to provide stage-wise hints for the low-level agent walking on the original knowledge graph. In this framework, the low-level agent optimizes a value function that balances two objectives: (1) maximizing return, and (2) integrating efficient guidance from the high-level agent. Experiments conducted on three real-word knowledge graph datasets demonstrate that FULORA outperforms RL-based baselines, especially in the case of long-distance reasoning.
- Abstract(参考訳): 近年,知識グラフ(KG)に対するマルチホップ推論は,その有効性と解釈可能性から広く研究されている。
しかし、従来のマルチホップ推論アプローチには2つの主要な欠点がある。
まず、エージェントは、まばらな報酬のために、初期段階で効果的で堅牢なポリシーを学ぶのに苦労する。
第二に、これらのアプローチは、エージェントが長い推論パスを横切る必要があるスパースナレッジグラフのような特定のデータセットに干渉することが多い。
これらの問題に対処するために,階層的強化学習(HRL)に基づく二重エージェントを用いたマルチホップ推論モデル FULORA を提案する。
FULORAは、二重エージェント間のeFficient GUidance-ExpLORAtionによる上記の推論課題に取り組む。
高レベルエージェントは、単純化された知識グラフの上を歩き、元の知識グラフの上を歩く低レベルエージェントの段階的なヒントを提供する。
このフレームワークでは,(1)リターンの最大化,(2)高レベルのエージェントからの効率的なガイダンスの統合という,2つの目的のバランスをとる値関数を最適化する。
3つの実単語知識グラフデータセットによる実験により、FULORAは、特に長距離推論の場合、RLベースのベースラインより優れていることが示された。
関連論文リスト
- Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Reasoning of Large Language Models over Knowledge Graphs with Super-Relations [53.14275361052276]
本稿では,ReKnoSフレームワークを提案する。
我々のフレームワークの主な利点は、スーパーリレーションを通して複数のリレーションパスを含めることである。
その結果、ReKnoSは既存の最先端ベースラインよりも優れた性能を示し、平均精度は2.92%向上した。
論文 参考訳(メタデータ) (2025-03-28T06:11:04Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Rewarding Graph Reasoning Process makes LLMs more Generalized Reasoners [30.195361623027313]
Process Reward Models (PRMs) は、段階的なフィードバックを提供することで推論を強化するという、例外的な約束を証明している。
本稿では,グラフ推論問題に対して,ステップワイドラベルを用いた最大のデータセットであるGraphSILOを紹介する。
グラフ推論問題のために設計された最初のPRMであるGraphPRMをトレーニングし、2つのキー設定でその有効性を評価する。
論文 参考訳(メタデータ) (2025-03-02T10:39:40Z) - Causal Graphs Meet Thoughts: Enhancing Complex Reasoning in Graph-Augmented LLMs [4.701165676405066]
関連情報を検索するだけでなく、因果推論や説明可能性の提供も重要である。
本稿では,大きな知識グラフをフィルタして原因効果エッジを強調する新しいパイプラインを提案する。
医学的質問応答タスクの実験では、一貫した利得を示し、最大10%の絶対的な改善がある。
論文 参考訳(メタデータ) (2025-01-24T19:31:06Z) - Reasoning with Graphs: Structuring Implicit Knowledge to Enhance LLMs Reasoning [73.2950349728376]
大規模言語モデル(LLM)は、幅広いタスクで顕著な成功を収めている。
しかし、彼らは情報片間の関係を理解し、推論する必要があるタスクの推論において、依然として課題に直面している。
この課題は、論理的推論やマルチホップ質問応答など、多段階プロセスに関わるタスクにおいて特に顕著である。
本稿では、まず文脈から明示的なグラフを構築することにより、グラフを用いた推論(RwG)を提案する。
論文 参考訳(メタデータ) (2025-01-14T05:18:20Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - CADRL: Category-aware Dual-agent Reinforcement Learning for Explainable Recommendations over Knowledge Graphs [34.83895369861899]
本稿では,知識グラフに対する説明可能なレコメンデーションのためのカテゴリ認識型二エージェント強化学習モデルを提案する。
本モデルは,(1)近隣のエンティティやカテゴリからコンテキスト対応のアイテム表現を共同でキャプチャするカテゴリ対応グラフニューラルネットワークと,(2)2つのエージェントが効率的に長い経路をたどって適切な項目を探索するデュアルエージェントRLフレームワークの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-08-06T13:07:08Z) - DARA: Decomposition-Alignment-Reasoning Autonomous Language Agent for Question Answering over Knowledge Graphs [70.54226917774933]
本稿では,DARA(Decomposition Alignment-Reasoning Agent)フレームワークを提案する。
DARAは2つのメカニズムを通じて、質問を形式的なクエリに効果的に解析する。
我々は,DARAがKGQAの最先端列挙およびランク付けに基づく手法に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-11T09:09:37Z) - Bigraph Matching Weighted with Learnt Incentive Function for Multi-Robot
Task Allocation [5.248564173595024]
本稿では,マルチロボットタスクアロケーションに対する二部グラフマッチング手法の堅牢性やインセンティブを学習するためのグラフ強化学習フレームワークを開発する。
GRL誘導インセンティブを付加したこの新しい複グラフマッチング手法の性能は,元の複グラフマッチング手法と同等であることがわかった。
論文 参考訳(メタデータ) (2024-03-11T19:55:08Z) - KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [54.09074527006576]
大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を証明していますが、より高度な課題に取り組むには不十分です。
この不適切さは、主に言語エージェントのアクション知識が組み込まれていないことに起因する。
我々は、明示的な行動知識を取り入れることで、LLMの計画能力を高めるために設計された新しいアプローチであるKnowAgentを紹介する。
論文 参考訳(メタデータ) (2024-03-05T16:39:12Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - RACCER: Towards Reachable and Certain Counterfactual Explanations for
Reinforcement Learning [2.0341936392563063]
本稿では,RLエージェントの動作に対する反実的説明を生成するための,RACCERを提案する。
木探索を用いて、定義された特性に基づいて最も適切なカウンターファクトを見つける。
我々はRACCERを2つのタスクで評価し、また、RL固有の対策がエージェントの行動をよりよく理解するのに役立つことを示す。
論文 参考訳(メタデータ) (2023-03-08T09:47:00Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Learning to Walk with Dual Agents for Knowledge Graph Reasoning [20.232810842082674]
マルチホップ推論アプローチは、短い推論パスでのみうまく機能し、パスの長さが増加するとターゲットエンティティを見逃しがちである。
そこで我々は,2つのエージェント(GIANTとDWARF)が共同でKGの上を歩き,協調して回答を検索するように訓練する,二重エージェント強化学習フレームワークを提案する。
提案手法は,クラスタレベルの経路を素早く探索するエージェント(GIANT)の1つを割り当て,別のエージェント(DWARF)にステージワイドヒントを提供することによって,長い経路における推論課題に対処する。
論文 参考訳(メタデータ) (2021-12-23T23:03:24Z) - Agent-Centric Representations for Multi-Agent Reinforcement Learning [12.577354830985012]
完全協調型マルチエージェント強化学習において,対象中心表現が有用であるかどうかを検討する。
具体的には、RLアルゴリズムにエージェント中心の誘導バイアスを組み込む2つの方法を検討する。
これらのアプローチをGoogle Research Football環境およびDeepMind Lab 2D上で評価します。
論文 参考訳(メタデータ) (2021-04-19T15:43:40Z) - Explainability in Deep Reinforcement Learning [68.8204255655161]
説明可能な強化学習(XRL)の実現に向けての最近の成果を概観する。
エージェントの振る舞いを正当化し、説明することが不可欠である重要な状況において、RLモデルのより良い説明可能性と解釈性は、まだブラックボックスと見なされているものの内部動作に関する科学的洞察を得るのに役立つ。
論文 参考訳(メタデータ) (2020-08-15T10:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。