Fugu-MT 論文翻訳(概要): QueryAgent: A Reliable and Efficient Reasoning Framework with Environmental Feedback based Self-Correction

論文の概要: QueryAgent: A Reliable and Efficient Reasoning Framework with Environmental Feedback based Self-Correction

arxiv url: http://arxiv.org/abs/2403.11886v1
Date: Mon, 18 Mar 2024 15:39:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 19:50:22.595978
Title: QueryAgent: A Reliable and Efficient Reasoning Framework with Environmental Feedback based Self-Correction
Title（参考訳）: QueryAgent: 環境フィードバックに基づく自己補正による信頼性と効率的な推論フレームワーク
Authors: Xiang Huang, Sitao Cheng, Shanshan Huang, Jiayu Shen, Yong Xu, Chaoyun Zhang, Yuzhong Qu,
Abstract要約: 環境フィードバックに基づく自己補正手法ERASERを提案する。実験の結果、QueryAgentは以前の数ショットメソッドよりも特に優れていた。このアプローチは、実行時、クエリオーバヘッド、API呼び出しコストなど、効率性の面で優れています。
参考スコア（独自算出の注目度）: 18.383499080327542
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Employing Large Language Models (LLMs) for semantic parsing has achieved remarkable success. However, we find existing methods fall short in terms of reliability and efficiency when hallucinations are encountered. In this paper, we address these challenges with a framework called QueryAgent, which solves a question step-by-step and performs step-wise self-correction. We introduce an environmental feedback-based self-correction method called ERASER. Unlike traditional approaches, ERASER leverages rich environmental feedback in the intermediate steps to perform selective and differentiated self-correction only when necessary. Experimental results demonstrate that QueryAgent notably outperforms all previous few-shot methods using only one example on GrailQA and GraphQ by 7.0 and 15.0 F1. Moreover, our approach exhibits superiority in terms of efficiency, including runtime, query overhead, and API invocation costs. By leveraging ERASER, we further improve another baseline (i.e., AgentBench) by approximately 10 points, revealing the strong transferability of our approach.
Abstract（参考訳）: 意味解析にLarge Language Models(LLM)を使うことは、大きな成功を収めた。しかし,幻覚に遭遇した場合,既存の手法は信頼性や効率性に乏しいことが判明した。本稿では,質問を段階的に解決し,段階的に自己補正を行うQueryAgentというフレームワークを用いて,これらの課題に対処する。環境フィードバックに基づく自己補正手法ERASERを提案する。従来のアプローチとは異なり、ERASERは中間段階の豊かな環境フィードバックを活用して、必要に応じて選択的で差別化された自己補正を行う。実験の結果、QueryAgentはGrailQAとGraphQのサンプルを7.0と15.0のF1で1つだけ使って、以前のいくつかのショットメソッドを特に上回っている。さらに,ランタイムやクエリオーバヘッド,API呼び出しコストなど,効率性の面で優れています。 ERASERを活用することで、AgentBenchという別のベースラインを約10ポイント改善し、我々のアプローチの強い転送可能性を明らかにする。

関連論文リスト

Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [55.044159987218436]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。 LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文参考訳（メタデータ） (2025-05-23T08:23:36Z)
ConvSearch-R1: Enhancing Query Reformulation for Conversational Search with Reasoning via Reinforcement Learning [45.37734114816888]
本稿では、強化学習を活用して外部リライト管理に依存しないフレームワークであるConvSearch-R1を提案する。新たな2段階のアプローチは,検索誘導型自己蒸留によるコールドスタート問題に対処するために,セルフ駆動型ポリシーウォームアップと,従来型の検索指標における疎度問題に対処する特別に設計されたランクインセンティブ報酬形成機構を備えた検索誘導型強化学習を組み合わせたものである。
論文参考訳（メタデータ） (2025-05-21T17:27:42Z)
Leveraging LLM Inconsistency to Boost Pass@k Performance [3.797421474324735]
大規模言語モデル(LLM)は、多くのドメインにおいて印象的な能力を発揮するが、マイナーな入力変更に対する不整合性を示す。本稿では,Pass@kの性能向上にモデルの不整合を利用した新しい手法を提案する。具体的には、与えられたタスクのk変種を生成し、各タスクに対して1つの候補解を提出する「変数」エージェントを提案する。
論文参考訳（メタデータ） (2025-05-19T10:22:04Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文参考訳（メタデータ） (2025-02-24T07:15:05Z)
QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search [89.97082652805904]
提案するQLASS(Q-guided Language Agent Stepwise Search)は,Q-valueを推定してアノテーションを自動的に生成する。ステップワイズガイダンスにより、言語エージェントが長期的価値に適応できるようにQ誘導型生成戦略を提案する。我々はQLASSが質的分析によってより効果的な意思決定につながることを実証的に実証した。
論文参考訳（メタデータ） (2025-02-04T18:58:31Z)
Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training [18.896813839389893]
本稿では,言語エージェントをオンザフライでリフレクション可能な反復型自己学習フレームワーク,Agent-Rを提案する。 Agent-Rは、正しさに基づいてアクションを報酬または罰揚する従来の方法とは異なり、MCTSを活用して、誤ったトラジェクトリから正しいトラジェクトリを復元するトレーニングデータを構築する。以上の結果から,Agent-Rは連続的にエラーから回復し,タイムリーなエラー訂正を可能にすることが示唆された。
論文参考訳（メタデータ） (2025-01-20T11:46:04Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文参考訳（メタデータ） (2024-09-19T02:20:06Z)
Self-Supervised Inference of Agents in Trustless Environments [44.99833362998488]
本稿では,エージェントがSwarmを形成し,高品質な応答を効果的に生成する手法を提案する。これはデータ推論とランク付けが可能なエージェントを活用することで実現される。我々のアプローチは、125ミリ秒未満の検証レイテンシに達する他の信頼できない推論戦略よりも、桁違いに高速であることを示す。
論文参考訳（メタデータ） (2024-09-12T20:32:07Z)
No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文参考訳（メタデータ） (2024-08-27T14:31:54Z)
Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-13T20:52:13Z)
On Speeding Up Language Model Evaluation [48.51924035873411]
LLM(Large Language Models)を用いたプロンプトベースの手法の開発には、多くの意思決定が必要である。この課題に対処するための新しい手法を提案する。典型的に必要とされるリソースの5～15%しか必要とせず,トップパフォーマンスの手法を識別できることが示される。
論文参考訳（メタデータ） (2024-07-08T17:48:42Z)
Cluster-level pseudo-labelling for source-free cross-domain facial expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文参考訳（メタデータ） (2022-10-11T08:24:50Z)
KECP: Knowledge Enhanced Contrastive Prompting for Few-shot Extractive Question Answering [28.18555591429343]
我々はKECP(Knowledge Enhanced Contrastive Prompt-tuning)という新しいフレームワークを提案する。 PLMにポインタヘッドを追加する代わりに、タスクを非自己回帰型マスケッド言語モデリング(MLM)生成問題に変換する。提案手法は,数ショット設定における最先端のアプローチを大きなマージンで一貫して上回っている。
論文参考訳（メタデータ） (2022-05-06T08:31:02Z)
Confidence-Aware Active Feedback for Efficient Instance Search [21.8172170825049]
関連性フィードバックは、不完全なランキング結果をさらに洗練させるために、インスタンス検索(INS)タスクで広く使用されている。本稿では,最も価値の高いフィードバック候補を効率的に選択できる信頼性対応アクティブフィードバック(CAAF)手法を提案する。特にCAAFは、TRECVID 2021の大規模ビデオINS評価において、第1位を記録している。
論文参考訳（メタデータ） (2021-10-23T16:14:03Z)
BERT Loses Patience: Fast and Robust Inference with Early Exit [91.26199404912019]
本稿では,事前学習した言語モデルの効率性と堅牢性を向上させるためのプラグイン・アンド・プレイ手法として,Patience-based Early Exitを提案する。提案手法では,モデルを少ないレイヤで予測できるため,推論効率が向上する。
論文参考訳（メタデータ） (2020-06-07T13:38:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。