論文の概要: Focused ReAct: Improving ReAct through Reiterate and Early Stop
- arxiv url: http://arxiv.org/abs/2410.10779v1
- Date: Mon, 14 Oct 2024 17:49:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 19:34:54.179226
- Title: Focused ReAct: Improving ReAct through Reiterate and Early Stop
- Title(参考訳): Focused ReAct: ReiterateとEarly StopによるReActの改善
- Authors: Shuoqiu Li, Han Xu, Haipeng Chen,
- Abstract要約: 再試行と早期停止機構を組み込んだReActパラダイムの拡張版であるFocused ReActを紹介した。
その結果,元のReAct法と比較して18%から530%の精度向上と34%のランタイム削減が得られた。
- 参考スコア(独自算出の注目度): 5.594208481848758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have significantly improved their reasoning and decision-making capabilities, as seen in methods like ReAct. However, despite its effectiveness in tackling complex tasks, ReAct faces two main challenges: losing focus on the original question and becoming stuck in action loops. To address these issues, we introduce Focused ReAct, an enhanced version of the ReAct paradigm that incorporates reiteration and early stop mechanisms. These improvements help the model stay focused on the original query and avoid repetitive behaviors. Experimental results show accuracy gains of 18% to 530% and a runtime reduction of up to 34% compared to the original ReAct method.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ReActのようなメソッドで見られるように、推論と意思決定能力を大幅に改善した。
しかし、複雑なタスクに対処する効果があるにもかかわらず、ReActは2つの大きな課題に直面している。
これらの問題に対処するために,再試行と早期停止機構を組み込んだReActパラダイムの拡張版であるFocused ReActを紹介した。
これらの改善により、モデルは元のクエリに集中し、反復的な振る舞いを避けることができる。
実験の結果,元のReAct法と比較して18%から530%の精度向上と34%のランタイム削減が得られた。
関連論文リスト
- SEEKR: Selective Attention-Guided Knowledge Retention for Continual Learning of Large Language Models [27.522743690956315]
本研究では,大規模言語モデル (LLM) のデータ効率性に基づく連続学習のためのSelective attEntion-guided Knowledge Retention法(SEEKR)を提案する。
SEEKRは、よりきめ細かい知識保持のために選択された注目ヘッドに注意蒸留を行う。
LLMのための2つの連続学習ベンチマークの実験結果は、SEEKRが既存の手法よりも性能と効率の両面で優れていることを示す。
論文 参考訳(メタデータ) (2024-11-09T13:02:36Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - MAgICoRe: Multi-Agent, Iterative, Coarse-to-Fine Refinement for Reasoning [60.55556283848063]
大規模言語モデル(LLM)推論は、テストタイムアグリゲーション戦略、すなわち、複数のサンプルを生成し、生成されたサンプル間で投票することで改善することができる。
Refinementは、LLM生成したフィードバックを使ってソリューションの品質を改善する方法を提供する。
本稿では,問題の難易度を,難易度や難易度に分類することで,過度な改善を回避するMagICoReを提案する。
論文 参考訳(メタデータ) (2024-09-18T17:12:41Z) - Progress or Regress? Self-Improvement Reversal in Post-training [26.051637877066327]
本稿では,自己改善のためのポストトレーニングパラダイムの根底にある拡張を精査する包括的評価フレームワークを提案する。
ベンチマークで改善されたパフォーマンスを示すモデルは、パラドックス的により広範で必須の能力の低下を示す。
これらの結果から, ポストトレーニングによる現在の自己改善実践は, より複雑な問題に対処するためのモデルの装備に不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-07-06T09:07:11Z) - Learning to Refine with Fine-Grained Natural Language Feedback [81.70313509881315]
我々は,3つの異なるLLM能力の構成要素として,フィードバックによる洗練を検討することを提案する。
提案手法の鍵となる特性は,ステップ2の批判モデルがエラーに対してきめ細かいフィードバックを与えることができる点である。
文書基盤要約の事実整合性を改善する作業において,異なる機能モデルがDCRによる精細化の恩恵を受けることを示す。
論文 参考訳(メタデータ) (2024-07-02T16:15:01Z) - Devil's Advocate: Anticipatory Reflection for LLM Agents [53.897557605550325]
我々のアプローチは、LLMエージェントに対して、与えられたタスクを管理可能なサブタスクに分解するように促す。
イントロスペクティブ・イントロスペクティブ・イントロスペクティブ・イントロスペクティブ(introspective intervention)を3回実施する。
潜在的な障害の予測と、アクション実行前の代替策。
サブタスクの目的とのポストアクションアライメントと、計画実行における最大限の努力を保証するための改善によるバックトラック。
論文 参考訳(メタデータ) (2024-05-25T19:20:15Z) - RA-ISF: Learning to Answer and Understand from Retrieval Augmentation via Iterative Self-Feedback [19.28222902440827]
大規模言語モデル(LLM)は多くのタスクにおいて例外的な性能を示すが、それでもパラメータに格納された知識に大きく依存している。
Retrieval-augmented Generation (RAG)メソッドは、外部知識を統合することでこの問題に対処する。
本稿では、反復的にタスクを分解し、3つのサブモジュールで処理し、モデルの問題解決能力を向上するフレームワークであるRetrieval Augmented Iterative Self-Feedback (RA-ISF)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:01:05Z) - Replay-enhanced Continual Reinforcement Learning [37.34722105058351]
本稿では,新しいタスクにおける既存のリプレイ方式の可塑性を大幅に向上させるリプレイ拡張手法であるRECALLを紹介する。
Continual Worldベンチマークの実験では、RECALLは純粋に完全なメモリリプレイよりもはるかに優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-11-20T06:21:52Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。