論文の概要: QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search
- arxiv url: http://arxiv.org/abs/2502.02584v1
- Date: Tue, 04 Feb 2025 18:58:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:02:37.718910
- Title: QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search
- Title(参考訳): Q-Guided Stepwise Searchによる言語エージェント推論の高速化
- Authors: Zongyu Lin, Yao Tang, Xingcheng Yao, Da Yin, Ziniu Hu, Yizhou Sun, Kai-Wei Chang,
- Abstract要約: 提案するQLASS(Q-guided Language Agent Stepwise Search)は,Q-valueを推定してアノテーションを自動的に生成する。
ステップワイズガイダンスにより、言語エージェントが長期的価値に適応できるようにQ誘導型生成戦略を提案する。
我々はQLASSが質的分析によってより効果的な意思決定につながることを実証的に実証した。
- 参考スコア(独自算出の注目度): 89.97082652805904
- License:
- Abstract: Language agents have become a promising solution to complex interactive tasks. One of the key ingredients to the success of language agents is the reward model on the trajectory of the agentic workflow, which provides valuable guidance during training or inference. However, due to the lack of annotations of intermediate interactions, most existing works use an outcome reward model to optimize policies across entire trajectories. This may lead to sub-optimal policies and hinder the overall performance. To address this, we propose QLASS (Q-guided Language Agent Stepwise Search), to automatically generate annotations by estimating Q-values in a stepwise manner for open language agents. By introducing a reasoning tree and performing process reward modeling, QLASS provides effective intermediate guidance for each step. With the stepwise guidance, we propose a Q-guided generation strategy to enable language agents to better adapt to long-term value, resulting in significant performance improvement during model inference on complex interactive agent tasks. Notably, even with almost half the annotated data, QLASS retains strong performance, demonstrating its efficiency in handling limited supervision. We also empirically demonstrate that QLASS can lead to more effective decision making through qualitative analysis. We will release our code and data.
- Abstract(参考訳): 言語エージェントは複雑な対話的なタスクに対する有望なソリューションになっている。
言語エージェントの成功の鍵となる要素の1つは、エージェントワークフローの軌道上の報酬モデルである。
しかしながら、中間相互作用のアノテーションが欠如しているため、既存のほとんどの研究は、軌道全体のポリシーを最適化するために結果報酬モデルを使用している。
これは、サブ最適化ポリシーをもたらし、全体的なパフォーマンスを阻害する可能性がある。
そこで我々はQLASS(Q-guided Language Agent Stepwise Search)を提案する。
推論木を導入し、プロセス報酬モデリングを行うことで、QLASSは各ステップに対して効果的な中間ガイダンスを提供する。
ステップワイズガイダンスにより、言語エージェントが長期的価値に適応できるようにQ誘導生成戦略を提案し、複雑な対話型エージェントタスクのモデル推論において、大幅な性能向上をもたらす。
特に、ほぼ半分の注釈付きデータであっても、QLASSは高い性能を維持し、限られた監視処理の効率を実証している。
また,QLASSが質的分析によってより効果的な意思決定につながることを実証的に実証した。
コードとデータを公開します。
関連論文リスト
- Enhancing Question Answering Precision with Optimized Vector Retrieval and Instructions [1.2425910171551517]
質問応答 (QA) は情報検索 (IR) と言語モデルの重要な応用である。
本稿では、最適化されたベクトル検索と命令手法を統合することにより、QAタスク性能を改善するための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T21:14:04Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Enhancing Decision-Making for LLM Agents via Step-Level Q-Value Models [22.43652231336764]
本稿では,タスク関連Q値モデルを用いて行動選択を導出する手法を提案する。
その結果,Q値モデルの性能は大幅に向上した。
論文 参考訳(メタデータ) (2024-09-14T07:32:49Z) - DARA: Decomposition-Alignment-Reasoning Autonomous Language Agent for Question Answering over Knowledge Graphs [70.54226917774933]
本稿では,DARA(Decomposition Alignment-Reasoning Agent)フレームワークを提案する。
DARAは2つのメカニズムを通じて、質問を形式的なクエリに効果的に解析する。
我々は,DARAがKGQAの最先端列挙およびランク付けに基づく手法に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-11T09:09:37Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models [31.509994889286183]
我々はLanguage Agent Tree Search (LATS)を紹介した。Language Agent Tree Search (LATS)は、推論、行動、計画において言語モデル(LM)の能力を相乗化する最初の一般的なフレームワークである。
当社のアプローチの重要な特徴は、より意図的で適応的な問題解決メカニズムを提供する外部フィードバック環境の導入である。
LATSは、GPT-4でHumanEval上でプログラミングするための最先端パス@1精度(92.7%)を達成し、GPTによるWebShop上のWebナビゲーションの勾配ベースの微調整に匹敵する勾配なし性能(平均スコア75.9)を示す。
論文 参考訳(メタデータ) (2023-10-06T17:55:11Z) - Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization [103.70896967077294]
本稿では,レトロスペクティブモデルを学習することで,大規模言語エージェントを強化するための原則的枠組みを提案する。
提案するエージェントアーキテクチャは,事前学習した言語モデルを微調整するために,複数の環境やタスクにまたがる報酬から学習する。
様々なタスクの実験結果から、言語エージェントは時間とともに改善することが示された。
論文 参考訳(メタデータ) (2023-08-04T06:14:23Z) - Improved and Efficient Conversational Slot Labeling through Question
Answering [48.670822631047635]
Transformer-based Pretrained Language Model (PLM) は、自然言語理解(NLU)タスクの大部分に適合しないパフォーマンスを提供する。
本稿では,対話のためのNLUの重要なコンポーネントであるテキストスロットラベリング(SL)のモデリングと研究に焦点をあてる。
本稿では,QA調整型PLMをSLタスクに適用し,新しい最先端性能を実現する方法を示す。
論文 参考訳(メタデータ) (2022-04-05T11:34:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。