論文の概要: TRAD: Enhancing LLM Agents with Step-Wise Thought Retrieval and Aligned
Decision
- arxiv url: http://arxiv.org/abs/2403.06221v1
- Date: Sun, 10 Mar 2024 13:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 07:06:44.614338
- Title: TRAD: Enhancing LLM Agents with Step-Wise Thought Retrieval and Aligned
Decision
- Title(参考訳): TRAD:ステップワイズ思考検索と適応決定によるLDMエージェントの強化
- Authors: Ruiwen Zhou, Yingxuan Yang, Muning Wen, Ying Wen, Wenhao Wang,
Chunling Xi, Guoqiang Xu, Yong Yu, Weinan Zhang
- Abstract要約: 大規模言語モデル(LLM)エージェントは、Webナビゲーションやオンラインショッピングなど、さまざまなタスクのために構築されている。
本稿では,これらの問題に対処するための新しいフレームワーク(TRAD)を提案する。
TRADはThought Retrievalを実行し、思考マッチングによるステップレベルのデモ選択を実現する。
そして、TRADはAligned Decisionを導入し、検索したデモステップを、以前のステップまたはその後のステップで補完する。
- 参考スコア(独自算出の注目度): 32.24857534147114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Numerous large language model (LLM) agents have been built for different
tasks like web navigation and online shopping due to LLM's wide knowledge and
text-understanding ability. Among these works, many of them utilize in-context
examples to achieve generalization without the need for fine-tuning, while few
of them have considered the problem of how to select and effectively utilize
these examples. Recently, methods based on trajectory-level retrieval with task
meta-data and using trajectories as in-context examples have been proposed to
improve the agent's overall performance in some sequential decision making
tasks. However, these methods can be problematic due to plausible examples
retrieved without task-specific state transition dynamics and long input with
plenty of irrelevant context. In this paper, we propose a novel framework
(TRAD) to address these issues. TRAD first conducts Thought Retrieval,
achieving step-level demonstration selection via thought matching, leading to
more helpful demonstrations and less irrelevant input noise. Then, TRAD
introduces Aligned Decision, complementing retrieved demonstration steps with
their previous or subsequent steps, which enables tolerance for imperfect
thought and provides a choice for balance between more context and less noise.
Extensive experiments on ALFWorld and Mind2Web benchmarks show that TRAD not
only outperforms state-of-the-art models but also effectively helps in reducing
noise and promoting generalization. Furthermore, TRAD has been deployed in
real-world scenarios of a global business insurance company and improves the
success rate of robotic process automation.
- Abstract(参考訳): 多くの大規模言語モデル(LLM)エージェントが、LLMの幅広い知識とテキスト理解能力のために、Webナビゲーションやオンラインショッピングといった様々なタスクのために構築されている。
これらの研究のうち、多くは文脈内例を用いて微調整を必要とせず一般化を実現しているが、これらの例を選択・有効活用する方法の問題を考える者は少ない。
近年,タスクのメタデータを用いた軌道レベルの検索や,インコンテキストの具体例としてトラジェクタを使用する手法が提案され,シーケンシャルな意思決定タスクにおけるエージェントの全体的な性能向上が図られている。
しかし、これらの手法はタスク固有の状態遷移ダイナミクスや、多くの無関係なコンテキストを持つ長い入力を伴わずに検索可能な例によって問題となる可能性がある。
本稿では,これらの問題に対処するための新しいフレームワーク(TRAD)を提案する。
TRADはまずThought Retrievalを実行し、思考マッチングによるステップレベルのデモ選択を実現し、より有用なデモと、無関係な入力ノイズを発生させる。
次に、TRADはAligned Decisionを導入し、検索したデモステップを前または後のステップと補完し、不完全な思考に対する寛容を可能にし、より多くのコンテキストと少ないノイズのバランスをとる選択を提供する。
ALFWorldとMind2Webベンチマークの大規模な実験によると、TRADは最先端モデルを上回るだけでなく、ノイズの低減や一般化の促進にも有効である。
さらに、TRADはグローバルビジネス保険会社の現実シナリオに展開され、ロボットプロセスの自動化の成功率を改善している。
関連論文リスト
- Meta-Task Prompting Elicits Embedding from Large Language Models [57.50329659098592]
本稿では,新しい教師なし埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを提案する。
モデル微調整やタスク固有のエンジニアリングを必要とせずに、大規模言語モデルから高品質な文の埋め込みを生成する。
実験により, 各種メタタスクから平均化された埋め込みは, セマンティックテキスト類似度ベンチマーク上での競合性能を示すことを示した。
本研究は, 埋込抽出のための多用途, 資源効率のよい手法を提供する, 埋込生成のための新しいスケーリング法則を示唆する。
論文 参考訳(メタデータ) (2024-02-28T16:35:52Z) - Learning From Failure: Integrating Negative Examples when Fine-tuning
Large Language Models as Agents [44.13904794106225]
大規模言語モデル(LLM)は、検索エンジンのようなツールを介して環境と対話するエージェントとして機能することに成功した。
LLMは、トレーニングやアライメントにおいてツールの使用に特化せず、エージェントとしての有効性を制限している。
本稿では,大規模な言語モデルが適切なデータクリーニングと微調整戦略によって失敗から学習できることを論じる。
論文 参考訳(メタデータ) (2024-02-18T17:10:07Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [76.30313058201182]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Misconfidence-based Demonstration Selection for LLM In-Context Learning [0.0]
大規模言語モデル(LLM)を用いたインコンテキスト学習は、様々なタスクに迅速に適応する上で優れている。
この問題に対する現在のアプローチは、難易度の高い外部監視に依存するか、LLMとの頻繁な相互作用を必要とするかのいずれかである。
In-Context Reflection (ICR) と呼ばれる新しい手法を提案し、これらの課題を克服する。
論文 参考訳(メタデータ) (2024-01-12T00:11:24Z) - OrchestraLLM: Efficient Orchestration of Language Models for Dialogue
State Tracking [18.047158624848546]
大規模言語モデル (LLM) は自然言語処理システムの状況に革命をもたらしたが、計算コストは高い。
従来,Small Language Models (SLMs) の可能性を,大規模言語に対する費用対効果の代替手段として活用するための様々なアプローチが検討されてきた。
本研究では,計算効率の向上とタスク性能の向上を目的とした新しいSLM/LLMルーティングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-16T10:30:55Z) - LASER: LLM Agent with State-Space Exploration for Web Navigation [57.802977310392755]
大規模言語モデル(LLM)は、Webナビゲーションのようなインタラクティブな意思決定タスクにうまく適応している。
以前のメソッドでは、モデルに対して前方のみの実行モードを暗黙的に仮定しており、そこでは、オンコンテキストの例として、オラクルのトラジェクトリのみを提供する。
本稿では,対話型タスクを状態空間探索としてモデル化することを提案する。
論文 参考訳(メタデータ) (2023-09-15T05:44:08Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement
Learning [77.34726150561087]
In-Context Learning (RetICL) のための検索式を提案する。
我々は、マルコフ決定プロセスとして逐次サンプル選択の問題を定義し、LSTMを用いてサンプルレトリバーモデルを設計し、近似ポリシー最適化を用いてそれを訓練する。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z) - Can Unsupervised Knowledge Transfer from Social Discussions Help
Argument Mining? [25.43442712037725]
本稿では,教師なし,議論型対話型知識の課題を克服するために,新しい伝達学習戦略を提案する。
本研究では,ChangeMyViewのサブレディットからの議論に富んだ社会的な議論を,教師なしの議論型知識の源泉として活用する。
本稿では,提案手法を補完する,コンポーネント間関係予測のための新しいプロンプトベースの戦略を提案する。
論文 参考訳(メタデータ) (2022-03-24T06:48:56Z) - CSS-LM: A Contrastive Framework for Semi-supervised Fine-tuning of
Pre-trained Language Models [59.49705076369856]
プレトレーニング言語モデル(PLM)の微調整フェーズを改善するための新しいフレームワークを提案する。
大規模未ラベルコーパスから,タスクに対するドメインレベルおよびクラスレベルの意味的関連性に応じて,正および負のインスタンスを検索する。
次に、検索したラベル付きおよびオリジナルラベル付きの両方のインスタンスに対して、対照的な半教師付き学習を行い、PLMが重要なタスク関連セマンティックな特徴をキャプチャするのを助ける。
論文 参考訳(メタデータ) (2021-02-07T09:27:26Z) - Continuous Transition: Improving Sample Efficiency for Continuous
Control Problems via MixUp [119.69304125647785]
本稿では,連続的遷移を構築するための簡潔かつ強力な手法を提案する。
具体的には、連続的な遷移を線形に補間することにより、トレーニングのための新しい遷移を合成することを提案する。
また, 建設過程を自動案内する判別器を開発した。
論文 参考訳(メタデータ) (2020-11-30T01:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。