Fugu-MT 論文翻訳(概要): On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM agents

論文の概要: On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM agents

arxiv url: http://arxiv.org/abs/2603.12109v1
Date: Thu, 12 Mar 2026 16:14:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-13 14:46:26.205693
Title: On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM agents
Title（参考訳）: LLMエージェントのアクティブ推論のための強化学習における情報自己ロックについて
Authors: Deyu Zou, Yongqiang Chen, Fan Feng, Mufei Li, Pan Li, Yu Gong, James Cheng,
Abstract要約: アクティブな推論では、大きな言語モデル(LLM)エージェントは情報自己ロックに悩まされることが多い。アクティブ推論は,行動選択(AS)と信念追跡(BT)の2つのコア機能に分解する。我々は,ASとBTの不足が,RLトレーニング中の情報探索を制限することを示す。そこで本稿では, 容易かつ効果的に指向性批判を注入することで, 学習信号を再配置する手法を提案する。
参考スコア（独自算出の注目度）: 33.32413617717957
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning (RL) with outcome-based rewards has achieved significant success in training large language model (LLM) agents for complex reasoning tasks. However, in active reasoning where agents need to strategically ask questions to acquire task-relevant information, we find that LLM agents trained with RL often suffer from information self-locking: the agent ceases to ask informative questions and struggles to internalize already-obtained information. To understand the phenomenon, we decompose active reasoning into two core capabilities: Action Selection (AS), which determines the observation stream through queries, and Belief Tracking (BT), which updates the agent's belief based on collected evidence. We show that deficient AS and BT capabilities will limit the information exploration during RL training. Furthermore, insufficient exploration in turn hinders the improvement of AS and BT, creating a feedback loop that locks the agent in a low-information regime. To resolve the issue, we propose a simple yet effective approach that reallocates the learning signal by injecting easy- to-obtain directional critiques to help the agent escape self-locking. Extensive experiments with 7 datasets show that our approach significantly mitigates the information self-locking, bringing up to 60% improvements.
Abstract（参考訳）: 結果に基づく報酬を伴う強化学習(RL)は、複雑な推論タスクのための大規模言語モデル(LLM)エージェントの訓練において大きな成功を収めた。しかし、エージェントがタスク関連情報を取得するために戦略的に質問をする必要がある活発な推論では、RLで訓練されたLLMエージェントが情報自己ロックに悩まされることがしばしばある。この現象を理解するために,行動選択(AS)と,収集された証拠に基づいてエージェントの信念を更新するBelief Tracking(BT)の2つのコア機能に,アクティブな推論を分解する。我々は,ASとBTの不足が,RLトレーニング中の情報探索を制限することを示す。さらに、調査が不十分なため、ASとBTの改善が妨げられ、低情報状態のエージェントをロックするフィードバックループが生成される。この問題を解決するために,エージェントが自己ロックから逃れるのを支援するために,指向性批判を注入することで,学習信号を再配置する,シンプルで効果的なアプローチを提案する。 7つのデータセットによる大規模な実験は、我々のアプローチが情報の自己ロックを著しく軽減し、60%の改善をもたらすことを示している。

関連論文リスト

Thinking Makes LLM Agents Introverted: How Mandatory Thinking Can Backfire in User-Engaged Agents [23.785816075149484]
思考の誘導による複雑なタスクにおける大規模言語モデル(LLM)の性能向上のための強力な手法として、推論の緩和が登場した。本研究は,LLMエージェントの明示的思考効果に関する総合的研究である。ユーザを巻き込んだ設定では,必須思考がエージェントのバックファイアを引き起こし,異常なパフォーマンス低下の原因となることが分かっています。
論文参考訳（メタデータ） (2026-02-08T03:23:22Z)
The Path of Self-Evolving Large Language Models: Achieving Data-Efficient Learning via Intrinsic Feedback [51.144727949988436]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高める可能性を実証した。本研究では,最小限のデータを用いたLLによるLLMの改善について検討する。データ依存を最小限に抑えるため、自己認識に基礎を置いた2つの新しいメカニズムを導入する。
論文参考訳（メタデータ） (2025-10-03T06:32:10Z)
ReSeek: A Self-Correcting Framework for Search Agents with Instructive Rewards [18.92867715736209]
本稿では,検索エージェントを訓練するための自己修正フレームワークであるReSeekを提案する。本フレームワークでは,誤探索経路からエージェントを動的に識別・復元する自己補正機構を導入している。既存のデータセットにおけるデータ汚染のリスクを軽減するため、FictionalHotを導入する。
論文参考訳（メタデータ） (2025-10-01T06:44:28Z)
An Analysis of Decoding Methods for LLM-based Agents for Faithful Multi-Hop Question Answering [44.41915467956464]
大規模言語モデル(LLM)は、しばしば事実的に不正確な出力を生成する。この現象は知識集約型NLPタスクにおける精度を制限する。近年の研究では、モデル世代に対する忠実性を改善するために、トレーニング不要なデコード戦略を探求している。
論文参考訳（メタデータ） (2025-03-30T12:18:21Z)
LeakAgent: RL-based Red-teaming Agent for LLM Privacy Leakage [78.33839735526769]
LeakAgentは、プライバシー漏洩のための新しいブラックボックスレッドチームフレームワークである。我々のフレームワークは、敵のプロンプトを生成するための攻撃エージェントとして強化学習を通じてオープンソースのLLMを訓練する。我々は,LeakAgentが既存のルールベースのデータ抽出手法と,システムリーク時の自動手法を著しく上回っていることを示す。
論文参考訳（メタデータ） (2024-12-07T20:09:01Z)
ThinkNote: Enhancing Knowledge Integration and Utilization of Large Language Models via Constructivist Cognition Modeling [55.21641515545307]
大規模言語モデル(LLM)は、幅広いNLPタスクにおいて強力なパフォーマンスを示している。それらはしばしば、不慣れな外部情報に晒されたとき、最適でない行動と矛盾を示す。本稿では,LLMの外部知識活用を促進する新しいフレームワークであるThinkNoteを提案する。
論文参考訳（メタデータ） (2024-02-21T06:04:53Z)
A Closer Look at the Limitations of Instruction Tuning [52.587607091917214]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)における知識やスキルの向上に失敗することを示す。また、一般的なIT改善手法は、シンプルなLoRA微調整モデルよりも性能改善につながるものではないことも示している。この結果から,事前学習した知識のみから生成した応答は,オープンソースデータセット上でITから新たな知識を学習するモデルによって,一貫した応答性能が向上することが判明した。
論文参考訳（メタデータ） (2024-02-03T04:45:25Z)
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文参考訳（メタデータ） (2021-06-09T14:10:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。