論文の概要: IDEA:Enhancing the Rule Learning Ability of Language Agents through Induction, Deduction, and Abduction
- arxiv url: http://arxiv.org/abs/2408.10455v2
- Date: Sat, 24 Aug 2024 03:23:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 12:52:18.322901
- Title: IDEA:Enhancing the Rule Learning Ability of Language Agents through Induction, Deduction, and Abduction
- Title(参考訳): IDEA:インダクション, 推論, アブダクションによる言語エージェントのルール学習能力の向上
- Authors: Kaiyu He, Zhiyu Chen,
- Abstract要約: この研究は、対話的な設定で大規模言語モデルのルール学習能力を評価するために設計された新しいベンチマークであるRULEARNを紹介する。
RULEARNでは、エージェントが環境と対話して観察やパターンの識別を行い、これらの洞察を使って問題を解決する。
誘導, 誘引, アブダクション処理を統合した IDEA エージェントを提案する。
- 参考スコア(独自算出の注目度): 13.343562681680426
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While large language models (LLMs) have been thoroughly evaluated for deductive and inductive reasoning, their proficiency in abductive reasoning and holistic rule learning in interactive environments remains less explored. This work introduces RULEARN, a novel benchmark specifically designed to assess the rule-learning ability of LLMs in interactive settings. In RULEARN, agents interact with the environment to gather observations and discern patterns, using these insights to solve problems. To further enhance the rule-learning capabilities of LLM agents within this benchmark, we propose IDEA agent, which integrates Induction, Deduction, and Abduction processes. IDEA agent refines this approach by leveraging a structured reasoning sequence: generating hypotheses through abduction, testing them via deduction, and refining them based on feedback from induction. This sequence enables agents to dynamically establish and apply rules, mimicking human-like reasoning processes. Our evaluation of five representative LLMs indicates that while these models can generate plausible initial hypotheses, they often struggle with strategic interaction within the environment, effective incorporation of feedback, and adaptive refinement of their hypotheses. IDEA agent demonstrates significantly improved performance on the RULEARN benchmark, offering valuable insights for the development of agents capable of human-like rule-learning in real-world scenarios. We will release our code and data.
- Abstract(参考訳): 大規模言語モデル (LLM) は帰納的推論や帰納的推論において徹底的に評価されているが、帰納的推論の習熟度や対話型環境における全体論的ルール学習はいまだに研究されていない。
RULEARNは、インタラクティブな設定でLLMのルール学習能力を評価するために特別に設計された新しいベンチマークである。
RULEARNでは、エージェントが環境と対話して観察やパターンの識別を行い、これらの洞察を使って問題を解決する。
本ベンチマークでは, LLMエージェントの規則学習能力をさらに向上するため, 誘導, Deduction, Abductionプロセスを統合したIDEAエージェントを提案する。
IDEAエージェントは、構造的推論シーケンスを活用することでこのアプローチを洗練し、推論を通じて仮説を生成し、推論を介してそれらをテストし、誘導からのフィードバックに基づいてそれらを精製する。
このシーケンスにより、エージェントは人間のような推論プロセスを模倣して規則を動的に確立し、適用することができる。
5つの代表的なLCMを評価した結果,これらのモデルが妥当な初期仮説を生成できる一方で,環境内における戦略的相互作用,効果的なフィードバックの取り込み,仮説の適応的洗練に苦慮していることが示唆された。
IDEAエージェントはRULEARNベンチマークで大幅なパフォーマンス向上を示し、現実世界のシナリオで人間のようなルール学習が可能なエージェントを開発する上で貴重な洞察を提供する。
コードとデータを公開します。
関連論文リスト
- MIRAGE: Evaluating and Explaining Inductive Reasoning Process in Language Models [19.81485079689837]
帰納的および帰納的段階における大規模言語モデルの能力を評価する。
モデルが正しい帰納的規則を使わずに常に正しい推論を行う傾向があることが分かる。
帰納的推論プロセスでは、モデルは機能空間における現在のテスト例に近い観察された事実に焦点を当てる傾向があります。
論文 参考訳(メタデータ) (2024-10-12T14:12:36Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - Metacognitive Myopia in Large Language Models [0.0]
大規模言語モデル(LLM)は、文化的に固有のステレオタイプ、クラウドの道徳的判断、あるいは多数派の肯定的な評価を強化する潜在的に有害なバイアスを示す。
認知・生態的枠組みとしてメタ認知ミオピアを提案する。
我々の理論的枠組みは, メタ認知, 監視, 制御の2つの要素が欠如していることが, メタ認知性ミオピアの5つの症状を引き起こすことを示唆している。
論文 参考訳(メタデータ) (2024-08-10T14:43:57Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Enhancing Ethical Explanations of Large Language Models through
Iterative Symbolic Refinement [5.108863224378874]
本稿では,ハイブリッド・ニューロシンボリック・テクニックが倫理的説明の論理的妥当性とアライメントをいかに向上させるかを検討する。
本稿では,大規模言語モデルと外部の後方鎖型ソルバを統合した導出型フレームワーク Logic-Explainer を提案する。
経験的分析により、Logic-Explainerは、コンテキスト内学習法とChain-of-Thoughtを通じて生成された説明を改善することができることを示した。
論文 参考訳(メタデータ) (2024-02-01T16:39:51Z) - Phenomenal Yet Puzzling: Testing Inductive Reasoning Capabilities of Language Models with Hypothesis Refinement [92.61557711360652]
言語モデル(LM)は、しばしば帰納的推論に不足する。
我々は,反復的仮説修正を通じて,LMの帰納的推論能力を体系的に研究する。
本研究は, LMの誘導的推論過程と人間とのいくつかの相違点を明らかにし, 誘導的推論タスクにおけるLMの使用の可能性と限界に光を当てる。
論文 参考訳(メタデータ) (2023-10-12T17:51:10Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。