論文の概要: Towards Trustworthy Multi-Turn LLM Agents via Behavioral Guidance
- arxiv url: http://arxiv.org/abs/2512.11421v1
- Date: Fri, 12 Dec 2025 10:03:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.721848
- Title: Towards Trustworthy Multi-Turn LLM Agents via Behavioral Guidance
- Title(参考訳): 行動誘導による多孔式LDMエージェントの信頼性向上に向けて
- Authors: Gonca Gürsun,
- Abstract要約: 大規模言語モデルは強力な推論と生成能力を示すが、マルチターンタスクにおけるそれらの振る舞いは信頼性と検証性に欠けることが多い。
本稿では,LLMをベースとしたエージェントが,観察,行動,報酬の信号が定義された強化学習フォーマリズムによって記述された環境下で,明示的な行動指導の下で行動することを可能にするタスク補完フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models demonstrate strong reasoning and generation abilities, yet their behavior in multi-turn tasks often lacks reliability and verifiability. We present a task completion framework that enables LLM-based agents to act under explicit behavioral guidance in environments described by reinforcement learning formalisms with defined observation, action, and reward signals. The framework integrates three components: a lightweight task profiler that selects reasoning and generation strategies, a reasoning module that learns verifiable observation - action mappings, and a generation module that enforces constraint-compliant outputs through validation or deterministic synthesis. We show that as the agent interacts with the environment, these components co-evolve, yielding trustworthy behavior.
- Abstract(参考訳): 大規模言語モデルは強力な推論と生成能力を示すが、マルチターンタスクにおけるそれらの振る舞いは信頼性と検証性に欠けることが多い。
本稿では,LLMをベースとしたエージェントが,観察,行動,報酬の信号が定義された強化学習形式によって記述された環境下で,明示的な行動指導の下で行動することを可能にするタスク補完フレームワークを提案する。
このフレームワークは3つのコンポーネントを統合している: 推論と生成戦略を選択する軽量タスクプロファイラ、検証可能な観察 - アクションマッピング - を学習する推論モジュール、バリデーションまたは決定論的合成によって制約に準拠した出力を強制する生成モジュール。
エージェントが環境と相互作用するにつれて、これらのコンポーネントが共進化し、信頼できる行動をもたらすことを示す。
関連論文リスト
- The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - DICE: Dynamic In-Context Example Selection in LLM Agents via Efficient Knowledge Transfer [50.64531021352504]
インコンテキスト学習(ICL)によって強化された大規模言語モデルベースエージェントは、複雑な推論やツール使用タスクにおいて強力な能力を示している。
既存のアプローチは典型的には、エージェントやマルチステップの設定を含むサンプルの選択に依存している。
推論の各ステップにおいて最も関連性の高い実演を選択できるエージェントタスクのための理論的に基礎付けられた ICL フレームワーク DICE を提案する。
論文 参考訳(メタデータ) (2025-07-31T13:42:14Z) - Feature-Based vs. GAN-Based Learning from Demonstrations: When and Why [50.191655141020505]
この調査は、デモから学ぶ機能ベースのアプローチとGANベースのアプローチの比較分析を提供する。
特徴に基づく手法とGANに基づく手法の2分法はますます曖昧になっていると我々は主張する。
論文 参考訳(メタデータ) (2025-07-08T11:45:51Z) - Active Inference for Self-Organizing Multi-LLM Systems: A Bayesian Thermodynamic Approach to Adaptation [0.0]
本稿では,大規模言語モデル(LLM)とアクティブ推論を統合し,適応型言語エージェントを作成するための新しいアプローチを提案する。
本フレームワークは,3つの状態要因(確率,探索,情報状態)を用いて環境をモデル化する。
実験により、エージェントが環境力学の正確なモデルを開発することにより、このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-12-10T16:34:47Z) - Reflection-Bench: Evaluating Epistemic Agency in Large Language Models [10.801745760525838]
疫学エージェンシーは動的環境に関する信念を柔軟に構築し、適応し、監視する能力である。
リフレクション・ベンチ(Reflection-Bench)は,データ漏洩の長期的関連性と最小化を伴う7つのタスクからなるベンチマークである。
本研究は, コア認知機能の向上, クロスファンクショナルコーディネートの改善, 適応処理機構の開発など, 有望な研究の方向性を示唆する。
論文 参考訳(メタデータ) (2024-10-21T17:59:50Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。