Fugu-MT 論文翻訳(概要): Adaptive Reinforcement Learning Planning: Harnessing Large Language Models for Complex Information Extraction

論文の概要: Adaptive Reinforcement Learning Planning: Harnessing Large Language Models for Complex Information Extraction

arxiv url: http://arxiv.org/abs/2406.11455v2
Date: Thu, 29 Aug 2024 14:48:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-30 18:47:03.401661
Title: Adaptive Reinforcement Learning Planning: Harnessing Large Language Models for Complex Information Extraction
Title（参考訳）: 適応強化学習計画:複雑な情報抽出のための大規模言語モデルの構築
Authors: Zepeng Ding, Ruiyang Ke, Wenhao Huang, Guochao Jiang, Yanda Li, Deqing Yang, Jiaqing Liang,
Abstract要約: 大規模言語モデル(LLM)に関する既存の研究は、多段階計画により情報抽出タスクを解くことができることを示している。複雑な抽出タスクを分解して段階的に抽出することで,LLMの性能を効果的に向上させることができる。本稿では,LLMに基づく情報抽出のための2段階多段階手法を提案し,多段階計画を実行するためにRLフレームワークを採用する。
参考スコア（独自算出の注目度）: 14.982446379660633
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing research on large language models (LLMs) shows that they can solve information extraction tasks through multi-step planning. However, their extraction behavior on complex sentences and tasks is unstable, emerging issues such as false positives and missing elements. We observe that decomposing complex extraction tasks and extracting them step by step can effectively improve LLMs' performance, and the extraction orders of entities significantly affect the final results of LLMs. This paper proposes a two-stage multi-step method for LLM-based information extraction and adopts the RL framework to execute the multi-step planning. We regard sequential extraction as a Markov decision process, build an LLM-based extraction environment, design a decision module to adaptively provide the optimal order for sequential entity extraction on different sentences, and utilize the DDQN algorithm to train the decision model. We also design the rewards and evaluation metrics suitable for the extraction results of LLMs. We conduct extensive experiments on multiple public datasets to demonstrate the effectiveness of our method in improving the information extraction capabilities of LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)に関する既存の研究は、多段階計画により情報抽出タスクを解くことができることを示している。しかし、複雑な文やタスクに対する抽出行動は不安定であり、偽陽性や欠落要素といった新たな問題が発生する。複雑な抽出タスクを分解し、ステップごとに抽出することで、LCMの性能を効果的に向上させることができることを観察し、LCMの最終結果に大きな影響を及ぼす。本稿では,LLMに基づく情報抽出のための2段階多段階手法を提案し,多段階計画を実行するためにRLフレームワークを採用する。我々は、逐次抽出をマルコフ決定過程とみなし、LCMに基づく抽出環境を構築し、異なる文に対する逐次エンティティ抽出の最適順序を適応的に提供する決定モジュールを設計し、DDQNアルゴリズムを用いて決定モデルを訓練する。また,LLMの抽出結果に適した報酬と評価指標を設計する。提案手法の有効性を実証するため,複数の公開データセットに対する広範囲な実験を行い,LLMの情報抽出能力の向上を図った。

関連論文リスト

Behavior and Representation in Large Language Models for Combinatorial Optimization: From Feature Extraction to Algorithm Selection [2.6285579209051284]
大規模言語モデル(LLM)は、最適化における自動化の新しい視点を開いた。本研究では,LLMが内部的に最適化問題を表現する方法と,そのような表現が下流決定タスクをサポートするかどうかを検討する。
論文参考訳（メタデータ） (2025-12-15T14:28:35Z)
Feature Engineering for Agents: An Adaptive Cognitive Architecture for Interpretable ML Monitoring [2.1205272468688574]
大規模言語モデルに基づくエージェントに特徴工学の原則を適用したMLモニタリングのための認知アーキテクチャを提案する。決定手順モジュールは、リファクタリング、ブレークダウン、コンパイルという3つの重要なステップを通じて、機能エンジニアリングをシミュレートする。複数のLCMを用いた実験により, 各種ベースラインと比較して精度が有意に向上し, 提案手法の有効性が示された。
論文参考訳（メタデータ） (2025-06-11T13:48:25Z)
Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。エージェント検索フレームワークであるEXSEARCHを提案する。 4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-26T15:27:55Z)
RLAP: A Reinforcement Learning Enhanced Adaptive Planning Framework for Multi-step NLP Task Solving [14.11486479935094]
下流自然言語処理(NLP)タスクにおける大規模言語モデル(LLM)の性能向上のために,多段階計画が広く採用されている。マルチステップNLPタスクをよりよく解くために,RLAP(Reinforcement Learning enhanced Adaptive Planning framework)を提案する。
論文参考訳（メタデータ） (2025-05-17T08:06:14Z)
Complex LLM Planning via Automated Heuristics Discovery [48.07520536415374]
複雑な計画タスクのための大規模言語モデル(LLM)の強化を検討する。我々は,LLMがガイドタイム検索の関数を明示的に生成できる新しい手法である自動推論発見(AutoHD)を提案する。提案手法はモデルトレーニングや微調整を必要とせず,LLMが生成する関数の明示的な定義は推論過程の解釈可能性と洞察を与える。
論文参考訳（メタデータ） (2025-02-26T16:52:31Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文参考訳（メタデータ） (2024-10-08T17:54:03Z)
CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。そこで本研究では,学習バランスを定量的に評価する尺度を提案する。さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文参考訳（メタデータ） (2024-07-29T23:18:55Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文参考訳（メタデータ） (2024-06-18T22:57:06Z)
Efficient Sequential Decision Making with Large Language Models [19.083642464977224]
本稿では,大規模言語モデル(LLM)の成功を逐次意思決定に拡張することに焦点を当てる。既存の取り組みは、 (i) 意思決定のための再訓練または微調整 LLM または (ii) 事前訓練された LLM の設計プロンプトのいずれかである。本稿では,オンラインモデル選択アルゴリズムを活用してLLMエージェントを逐次意思決定に効率的に組み込む手法を提案する。
論文参考訳（メタデータ） (2024-06-17T22:13:22Z)
A Practice-Friendly LLM-Enhanced Paradigm with Preference Parsing for Sequential Recommendation [15.153844486572932]
本稿では、シーケンシャルレコメンデータシステム(SRS)のための優先構文解析(P2Rec)を用いた実践的LLM拡張パラダイムを提案する。具体的には、情報再構成段階において、事前学習したSRSモデルの助けを借りて、協調的な情報注入のための新しいユーザレベルSFTタスクを設計する。我々のゴールは、LLMが各ユーザのインタラクションシーケンスから対応する優先度分布を再構築することを学ばせることである。
論文参考訳（メタデータ） (2024-06-01T07:18:56Z)
Extracting Heuristics from Large Language Models for Reward Shaping in Reinforcement Learning [28.077228879886402]
強化学習(Reinforcement Learning, RL)は、報酬領域におけるサンプルの非効率性に悩まされ、移行時にはさらにその問題が顕著になる。サンプル効率を改善するために、報酬形成はRLエージェントが最適なポリシーに迅速に収束するのに役立つ本質的な報酬を導入するためのよく研究されたアプローチである。
論文参考訳（メタデータ） (2024-05-24T03:53:57Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文参考訳（メタデータ） (2023-08-21T02:07:35Z)
Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文参考訳（メタデータ） (2023-05-22T15:36:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。