Fugu-MT 論文翻訳(概要): WESE: Weak Exploration to Strong Exploitation for LLM Agents

論文の概要: WESE: Weak Exploration to Strong Exploitation for LLM Agents

arxiv url: http://arxiv.org/abs/2404.07456v1
Date: Thu, 11 Apr 2024 03:31:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-12 15:08:41.559124
Title: WESE: Weak Exploration to Strong Exploitation for LLM Agents
Title（参考訳）: WESE: LLMエージェントの強い爆発への弱視調査
Authors: Xu Huang, Weiwen Liu, Xiaolong Chen, Xingmei Wang, Defu Lian, Yasheng Wang, Ruiming Tang, Enhong Chen,
Abstract要約: 本稿では,オープンワールド対話型タスクの解法において,LLMエージェントの強化を目的としたWeak Exploration to Strong Exploitation (WESE)を提案する。 WESEは、探究と搾取のプロセスを分離し、費用対効果の弱いエージェントを用いて世界的知識の探索を行う。次に、獲得した知識を格納し、タスク関連知識を抽出する知識グラフベースの戦略を導入する。
参考スコア（独自算出の注目度）: 95.6720931773781
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, large language models (LLMs) have demonstrated remarkable potential as an intelligent agent. However, existing researches mainly focus on enhancing the agent's reasoning or decision-making abilities through well-designed prompt engineering or task-specific fine-tuning, ignoring the procedure of exploration and exploitation. When addressing complex tasks within open-world interactive environments, these methods exhibit limitations. Firstly, the lack of global information of environments leads to greedy decisions, resulting in sub-optimal solutions. On the other hand, irrelevant information acquired from the environment not only adversely introduces noise, but also incurs additional cost. This paper proposes a novel approach, Weak Exploration to Strong Exploitation (WESE), to enhance LLM agents in solving open-world interactive tasks. Concretely, WESE involves decoupling the exploration and exploitation process, employing a cost-effective weak agent to perform exploration tasks for global knowledge. A knowledge graph-based strategy is then introduced to store the acquired knowledge and extract task-relevant knowledge, enhancing the stronger agent in success rate and efficiency for the exploitation task. Our approach is flexible enough to incorporate diverse tasks, and obtains significant improvements in both success rates and efficiency across four interactive benchmarks.
Abstract（参考訳）: 近年,大規模言語モデル (LLM) は知的エージェントとして大きな可能性を証明している。しかし、既存の研究は主にエージェントの推論や意思決定能力の向上に重点を置いており、よく設計されたプロンプトエンジニアリングやタスク固有の微調整を通じて、探索と搾取の手順を無視している。オープンワールドの対話環境における複雑なタスクに対処する場合、これらの手法には制限がある。第一に、環境のグローバルな情報の欠如は、欲求的な決定を導き、その結果、準最適解をもたらす。一方、環境から取得した無関係な情報は、ノイズを悪用するだけでなく、追加のコストも発生させる。本稿では,オープンワールド対話型タスクにおけるLLMエージェントの強化を目的とした,Weak Exploration to Strong Exploitation (WESE)を提案する。具体的には、WESEは探索と搾取のプロセスを切り離し、費用対効果の弱いエージェントを用いて世界的知識の探索を行う。次に、獲得した知識を格納し、タスク関連知識を抽出する知識グラフベースの戦略を導入する。このアプローチは多様なタスクを組み込むのに十分な柔軟性があり、4つのインタラクティブなベンチマークで成功率と効率の両方に大きな改善が得られます。

関連論文リスト

Advances in LLMs with Focus on Reasoning, Adaptability, Efficiency and Ethics [0.46174569259495524]
本稿では,Large Language Models(LLMs)の分野における重要な展開について概説する。人間と機械のコミュニケーションのギャップを埋めるのに最も効果的なテクニックには、Chain-of-Thought prompting、Instruction Tuning、Reinforcement Learning from Human Feedbackなどがある。効率性、スケーリング戦略、最適化テクニック、および影響力のあるMixture-of-Experts(MoE)アーキテクチャについて、重要な焦点が当てられている。
論文参考訳（メタデータ） (2025-06-14T05:55:19Z)
ORMind: A Cognitive-Inspired End-to-End Reasoning Framework for Operations Research [53.736407871322314]
ORMindは認知にインスパイアされたフレームワークで、反ファクト推論を通じて最適化を強化する。提案手法は,要求を数学的モデルや実行可能なコードに変換するエンド・ツー・エンドのワークフローを実装し,人間の認識をエミュレートする。現在はLenovoのAIアシスタントで内部でテストされており、ビジネスとコンシューマの両方の最適化機能を強化する予定である。
論文参考訳（メタデータ） (2025-06-02T05:11:21Z)
Don't Just Follow MLLM Plans: Robust and Efficient Planning for Open-world Agents [7.186226937530119]
本稿では,これらの問題に対処するための新しいフレームワークであるオープンワールドエージェントのためのロバスト・効率的な計画手法(REPOA)を紹介する。 REPOAは、適応的な依存性学習と、知識不正確性に対する堅牢性を高めるためのきめ細かな障害対応操作メモリの3つの重要なコンポーネントを備えている。 2つの確立されたオープンワールドテストベッドにおける評価は、REPOAの堅牢で効率的なプランニングを実証し、遅発品の獲得に成功していることを示す。
論文参考訳（メタデータ） (2025-05-30T03:01:44Z)
Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering [87.76784654371312]
Embodied Question Answeringでは、エージェントが動的に3D環境を探索し、視覚情報を積極的に収集し、質問に答えるために多段階の推論を行う必要がある。既存のデータセットはしばしばバイアスや事前の知識を導入し、非身体的推論につながる。探索能力と推論能力の両方を評価するために特別に設計された最大のデータセットを構築します。
論文参考訳（メタデータ） (2025-03-14T06:29:47Z)
COSINT-Agent: A Knowledge-Driven Multimodal Agent for Chinese Open Source Intelligence [22.216759050092385]
オープンソースインテリジェンス(OSINT)は多様なマルチモーダルデータの統合と推論を必要とする。中国におけるOSINTの課題に対処するための知識駆動型マルチモーダルエージェントであるCOSINT-Agentを紹介する。 COSINT-Agentの中心は、COSINT-MLLMとEES-KGを橋渡しする革新的なEES-Matchフレームワークである。
論文参考訳（メタデータ） (2025-03-05T06:16:15Z)
Active Task Disambiguation with LLMs [48.54945212561785]
本稿では,タスクあいまいさの形式的定義を導入し,ベイズ実験設計のレンズによるタスクあいまいさの問題について考察する。提案手法により,LLMエージェントは情報ゲインを最大化する目的の質問を生成することができる。経験的な結果から、この形式の質問選択は、質問空間内でのみ推論に依存するアプローチに比べて、より効果的なタスクの曖昧さをもたらすことが示されている。
論文参考訳（メタデータ） (2025-02-06T20:20:22Z)
EfficientEQA: An Efficient Approach for Open Vocabulary Embodied Question Answering [21.114403949257934]
EQA(Embodied Question Answering)は、ロボットホームアシスタントにとって不可欠な課題である。近年の研究では、大規模視覚言語モデル(VLM)がEQAに有効に活用できることが示されているが、既存の研究はビデオベースの質問応答に焦点を当てているか、クローズドフォームの選択セットに依存している。オープン語彙EQAのためのEfficientEQAと呼ばれる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-26T19:48:47Z)
EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文参考訳（メタデータ） (2024-10-08T17:54:03Z)
Synergistic Multi-Agent Framework with Trajectory Learning for Knowledge-Intensive Tasks [44.42989163847349]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて大きなブレークスルーをもたらした。知識集約的なシナリオにおいて、現実的に一貫した応答を生成することは、依然として課題である。本稿では,LSM生成応答の解釈可能性と現実的一貫性を高めるために,外部知識を活用する新しいマルチエージェントフレームワークSMARTを紹介する。
論文参考訳（メタデータ） (2024-07-13T13:58:24Z)
DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents [49.74065769505137]
本研究では,新しい科学的発見の完全なサイクルを実行するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるDiscoVERYWORLDを紹介する。 8つのトピックにまたがる120の異なる課題タスクが含まれており、3レベルの難易度といくつかのパラメトリックなバリエーションがある。従来の環境においてよく機能する強力なベースラインエージェントが、ほとんどのdiscoVERYWORLDタスクに苦労していることがわかった。
論文参考訳（メタデータ） (2024-06-10T20:08:44Z)
Collaborative Knowledge Infusion for Low-resource Stance Detection [83.88515573352795]
姿勢検出モデルを支援するために、ターゲット関連の知識がしばしば必要である。低リソース姿勢検出タスクに対する協調的知識注入手法を提案する。
論文参考訳（メタデータ） (2024-03-28T08:32:14Z)
Mastering the Task of Open Information Extraction with Large Language Models and Consistent Reasoning Environment [52.592199835286394]
オープン情報抽出(OIE)は、自然文から客観的な構造化された知識を抽出することを目的としている。大規模言語モデル(LLM)は、テキスト内学習能力に優れています。
論文参考訳（メタデータ） (2023-10-16T17:11:42Z)
ExpeL: LLM Agents Are Experiential Learners [60.54312035818746]
実験学習エージェント(ExpeL)を導入し、パラメトリック更新を必要とせずにエージェント体験から学習できるようにする。我々のエージェントは、経験を自律的に収集し、学習課題の集合から自然言語を用いて知識を抽出する。推論において、エージェントは抽出された洞察と過去の経験をリコールし、情報的決定を行う。
論文参考訳（メタデータ） (2023-08-20T03:03:34Z)
Improving Knowledge Extraction from LLMs for Task Learning through Agent Analysis [4.055489363682198]
大規模言語モデル(LLM)は、タスク学習の知識源として大きな可能性を秘めている。プロンプト工学は、LLMから知識を引き出すのに有効であることが示されているが、同時に、新しいタスクを具現化したエージェント学習のための、適切な、状況に根ざした知識を得るには不十分である。本稿では,認知エージェントアプローチであるSTARSについて述べる。これは,迅速なエンジニアリングを拡張し,その制限を緩和し,エージェントがネイティブ言語能力,具体化,環境,ユーザ嗜好に適合する新たなタスク知識を取得できるようにする。
論文参考訳（メタデータ） (2023-06-11T20:50:14Z)
Asking Before Acting: Gather Information in Embodied Decision Making with Language Models [20.282749796376063]
本研究では,Large Language Models (LLM) が,不慣れな環境で重要な情報を効率的に収集する上で,課題に直面していることを示す。我々は,自然言語を用いた関連する情報に対して,エージェントが外部ソースと積極的に問い合わせることを可能にする方法であるtextitAsking Before Acting (ABA)を提案する。本研究では,テキストベースの日常タスク,ロボットアーム操作タスク,実世界のオープンドメインイメージベース実施タスクを含む,幅広い環境実験を行う。
論文参考訳（メタデータ） (2023-05-25T04:05:08Z)
KnowRU: Knowledge Reusing via Knowledge Distillation in Multi-agent Reinforcement Learning [16.167201058368303]
深層強化学習(RL)アルゴリズムはマルチエージェント領域において劇的に進歩している。この問題を解決するには、歴史的経験の効率的な活用が不可欠です。知識再利用のための「KnowRU」という手法を提案する。
論文参考訳（メタデータ） (2021-03-27T12:38:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。