論文の概要: CaRT: Teaching LLM Agents to Know When They Know Enough
- arxiv url: http://arxiv.org/abs/2510.08517v1
- Date: Thu, 09 Oct 2025 17:46:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.268075
- Title: CaRT: Teaching LLM Agents to Know When They Know Enough
- Title(参考訳): CaRT: LLMのエージェントに知っておくべきことを教える
- Authors: Grace Liu, Yuxiao Qu, Jeff Schneider, Aarti Singh, Aviral Kumar,
- Abstract要約: CaRTは、情報を求めるのをやめる際にLLMを教えるアプローチである。
CaRT微細トンネルLLMは、いつ終了するかを正当に学習する。
対話型医療診断と数学問題解決という2つの領域でCaRTをインスタンス化する。
- 参考スコア(独自算出の注目度): 34.8327970672672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many tasks require learned models to strategically gather relevant information over multiple rounds of interaction before actually acting on a task. Strategic information gathering requires models to know not only how to effectively acquire information, but also when to stop gathering information and make a decision, in order to avoid overthinking or getting derailed when acting. In this paper, we formalize this problem and introduce Counterfactuals and Reasoning for Termination (CaRT), an approach for teaching LLMs when to stop seeking information. To appropriately learn when to terminate, CaRT fine-tunes LLMs using counterfactual pairs of trajectories, one where termination is appropriate and a minimally modified version of the same trajectory where it is not. It trains the LLM to explain the rationale for the termination decision in either case via verbal reasoning, and imbues this capability into the base LLM via fine-tuning. We instantiate CaRT in two domains: interactive medical diagnosis and math problem solving. In both domains, we find that CaRT improves the efficiency of information gathering and task success rate compared to other fine-tuning methods.
- Abstract(参考訳): 多くのタスクは、実際にタスクに振る舞う前に、複数のラウンドにわたる関連する情報を戦略的に収集する学習モデルを必要とします。
戦略情報収集は、情報を効果的に取得する方法だけでなく、情報収集や決定をいつ止めるかをモデルに求める。
本稿では,この問題を形式化し,情報を求めるのをやめる際のLCMを教えるアプローチであるCaRT(Caerfactuals and Reasoning for Termination)を導入する。
終端するタイミングを適切に学習するために、終端が適切で同じ軌跡の最小修正版である反ファクトアル対の軌跡を用いたCaRT微細トンネルLLMを用いる。
いずれの場合も、終端決定の根拠を口頭弁論で説明するためにLLMを訓練し、微調整によって基礎LLMにその能力を付与する。
対話型医療診断と数学問題解決という2つの領域でCaRTをインスタンス化する。
両領域において,CaRTは他の微調整手法と比較して,情報収集とタスク成功率の効率が向上することがわかった。
関連論文リスト
- Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。
交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。
目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T16:51:54Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Disentangling Memory and Reasoning Ability in Large Language Models [97.26827060106581]
本稿では、複雑な推論プロセスを2つの異なる明確なアクションに分解する新しい推論パラダイムを提案する。
実験の結果, この分解によりモデル性能が向上し, 推論プロセスの解釈可能性も向上することがわかった。
論文 参考訳(メタデータ) (2024-11-20T17:55:38Z) - KBM: Delineating Knowledge Boundary for Adaptive Retrieval in Large Language Models [69.99274367773997]
大規模言語モデル(LLM)は知識を動的に変化させ、未知の静的情報を扱うのにしばしば苦労する。
Retrieval-Augmented Generation (RAG) はこれらの課題に対処するために使われ、LLMの性能向上に大きな影響を与えている。
本稿では,ある質問の既知/未知を表現し,RAGを起動する必要があるかどうかを判断するための知識境界モデル(KBM)を提案する。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - CEM: A Data-Efficient Method for Large Language Models to Continue Evolving From Mistakes [36.14056870453356]
大きな言語モデルを維持し、その欠点に対処するためには、継続的な学習が不可欠です。
本稿では,CPTデータ収集を目的としたデータ効率の高い手法であるCEM法を提案する。
実験の結果、CEMはドメイン内QAタスクとドメイン外QAタスクの両方で複数のモデルの性能を大幅に向上させ、最大29.63%のゲインを達成している。
論文 参考訳(メタデータ) (2024-04-11T17:44:56Z) - Learning From Failure: Integrating Negative Examples when Fine-tuning Large Language Models as Agents [41.14201835950814]
大規模言語モデル(LLM)は、検索エンジンなどのツールを介して環境と対話するエージェントとして機能することに成功した。
これまでの研究は、LLMと環境の間の相互作用軌跡を初めて収集し、小さなモデルを微調整するためにタスクを完了した軌道のみを用いていた。
これらの軌道からLLMは適切な品質制御と微調整戦略によって学習することができると我々は主張する。
論文 参考訳(メタデータ) (2024-02-18T17:10:07Z) - Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach [31.6589518077397]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。
LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。
本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文 参考訳(メタデータ) (2023-06-06T11:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。