Fugu-MT 論文翻訳(概要): Focused ReAct: Improving ReAct through Reiterate and Early Stop

論文の概要: Focused ReAct: Improving ReAct through Reiterate and Early Stop

arxiv url: http://arxiv.org/abs/2410.10779v1
Date: Mon, 14 Oct 2024 17:49:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-29 19:34:54.179226
Title: Focused ReAct: Improving ReAct through Reiterate and Early Stop
Title（参考訳）: Focused ReAct: ReiterateとEarly StopによるReActの改善
Authors: Shuoqiu Li, Han Xu, Haipeng Chen,
Abstract要約: 再試行と早期停止機構を組み込んだReActパラダイムの拡張版であるFocused ReActを紹介した。その結果,元のReAct法と比較して18%から530%の精度向上と34%のランタイム削減が得られた。
参考スコア（独自算出の注目度）: 5.594208481848758
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have significantly improved their reasoning and decision-making capabilities, as seen in methods like ReAct. However, despite its effectiveness in tackling complex tasks, ReAct faces two main challenges: losing focus on the original question and becoming stuck in action loops. To address these issues, we introduce Focused ReAct, an enhanced version of the ReAct paradigm that incorporates reiteration and early stop mechanisms. These improvements help the model stay focused on the original query and avoid repetitive behaviors. Experimental results show accuracy gains of 18% to 530% and a runtime reduction of up to 34% compared to the original ReAct method.
Abstract（参考訳）: 大規模言語モデル(LLM)は、ReActのようなメソッドで見られるように、推論と意思決定能力を大幅に改善した。しかし、複雑なタスクに対処する効果があるにもかかわらず、ReActは2つの大きな課題に直面している。これらの問題に対処するために,再試行と早期停止機構を組み込んだReActパラダイムの拡張版であるFocused ReActを紹介した。これらの改善により、モデルは元のクエリに集中し、反復的な振る舞いを避けることができる。実験の結果,元のReAct法と比較して18%から530%の精度向上と34%のランタイム削減が得られた。

関連論文リスト

Variance-Based Pruning for Accelerating and Compressing Trained Networks [46.498278084317704]
分散ベースプルーニングは、ネットワークを効率的に圧縮するためのシンプルで構造化されたワンショットプルーニング技術である。 ImageNet-1k の認識タスクでは,DeiT-Base をプルーニングした直後に元の性能の70%以上を保っていることを示す。
論文参考訳（メタデータ） (2025-07-17T10:54:17Z)
Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文参考訳（メタデータ） (2025-06-27T09:53:57Z)
Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。 LRM効率を向上させるための2つの軽量手法を提案する。まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文参考訳（メタデータ） (2025-06-18T17:18:12Z)
Enhancing Relation Extraction via Supervised Rationale Verification and Feedback [12.687458877141934]
本稿では,関係抽出のための新しいフィードバックフレームワークを提案する。合理性を検証するための合理性スーパーバイザを提供し、初期予測を正すためのフィードバックとして再選択されたデモを提供する。提案手法は既存手法よりも大幅に優れている。
論文参考訳（メタデータ） (2024-12-10T08:18:29Z)
SEEKR: Selective Attention-Guided Knowledge Retention for Continual Learning of Large Language Models [27.522743690956315]
本研究では,大規模言語モデル (LLM) のデータ効率性に基づく連続学習のためのSelective attEntion-guided Knowledge Retention法(SEEKR)を提案する。 SEEKRは、よりきめ細かい知識保持のために選択された注目ヘッドに注意蒸留を行う。 LLMのための2つの連続学習ベンチマークの実験結果は、SEEKRが既存の手法よりも性能と効率の両面で優れていることを示す。
論文参考訳（メタデータ） (2024-11-09T13:02:36Z)
An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文参考訳（メタデータ） (2024-11-08T12:08:17Z)
MAgICoRe: Multi-Agent, Iterative, Coarse-to-Fine Refinement for Reasoning [60.55556283848063]
大規模言語モデル(LLM)推論は、テストタイムアグリゲーション戦略、すなわち、複数のサンプルを生成し、生成されたサンプル間で投票することで改善することができる。 Refinementは、LLM生成したフィードバックを使ってソリューションの品質を改善する方法を提供する。本稿では,問題の難易度を,難易度や難易度に分類することで,過度な改善を回避するMagICoReを提案する。
論文参考訳（メタデータ） (2024-09-18T17:12:41Z)
Progress or Regress? Self-Improvement Reversal in Post-training [26.051637877066327]
本稿では,自己改善のためのポストトレーニングパラダイムの根底にある拡張を精査する包括的評価フレームワークを提案する。ベンチマークで改善されたパフォーマンスを示すモデルは、パラドックス的により広範で必須の能力の低下を示す。これらの結果から, ポストトレーニングによる現在の自己改善実践は, より複雑な問題に対処するためのモデルの装備に不十分であることが示唆された。
論文参考訳（メタデータ） (2024-07-06T09:07:11Z)
Learning to Refine with Fine-Grained Natural Language Feedback [81.70313509881315]
我々は,3つの異なるLLM能力の構成要素として,フィードバックによる洗練を検討することを提案する。提案手法の鍵となる特性は,ステップ2の批判モデルがエラーに対してきめ細かいフィードバックを与えることができる点である。文書基盤要約の事実整合性を改善する作業において,異なる機能モデルがDCRによる精細化の恩恵を受けることを示す。
論文参考訳（メタデータ） (2024-07-02T16:15:01Z)
Devil's Advocate: Anticipatory Reflection for LLM Agents [53.897557605550325]
我々のアプローチは、LLMエージェントに対して、与えられたタスクを管理可能なサブタスクに分解するように促す。イントロスペクティブ・イントロスペクティブ・イントロスペクティブ・イントロスペクティブ(introspective intervention)を3回実施する。潜在的な障害の予測と、アクション実行前の代替策。サブタスクの目的とのポストアクションアライメントと、計画実行における最大限の努力を保証するための改善によるバックトラック。
論文参考訳（メタデータ） (2024-05-25T19:20:15Z)
RA-ISF: Learning to Answer and Understand from Retrieval Augmentation via Iterative Self-Feedback [19.28222902440827]
大規模言語モデル(LLM)は多くのタスクにおいて例外的な性能を示すが、それでもパラメータに格納された知識に大きく依存している。 Retrieval-augmented Generation (RAG)メソッドは、外部知識を統合することでこの問題に対処する。本稿では、反復的にタスクを分解し、3つのサブモジュールで処理し、モデルの問題解決能力を向上するフレームワークであるRetrieval Augmented Iterative Self-Feedback (RA-ISF)を提案する。
論文参考訳（メタデータ） (2024-03-11T16:01:05Z)
Replay-enhanced Continual Reinforcement Learning [37.34722105058351]
本稿では,新しいタスクにおける既存のリプレイ方式の可塑性を大幅に向上させるリプレイ拡張手法であるRECALLを紹介する。 Continual Worldベンチマークの実験では、RECALLは純粋に完全なメモリリプレイよりもはるかに優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2023-11-20T06:21:52Z)
Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文参考訳（メタデータ） (2023-11-16T09:07:34Z)
Cumulative Reasoning with Large Language Models [12.267474250936123]
累積推論(英: Cumulative Reasoning, CR)は、大規模言語モデルを累積的かつ反復的に利用する手法である。いくつかの複雑な推論タスクを通じてCRの利点を実証する。
論文参考訳（メタデータ） (2023-08-08T16:18:20Z)
Sample Less, Learn More: Efficient Action Recognition via Frame Feature Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文参考訳（メタデータ） (2023-07-27T13:52:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。