論文の概要: Thinking Makes LLM Agents Introverted: How Mandatory Thinking Can Backfire in User-Engaged Agents
- arxiv url: http://arxiv.org/abs/2602.07796v1
- Date: Sun, 08 Feb 2026 03:23:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.804678
- Title: Thinking Makes LLM Agents Introverted: How Mandatory Thinking Can Backfire in User-Engaged Agents
- Title(参考訳): LLMエージェントを内向的にする思考: ユーザ老化エージェントにおける強制思考のバックファイア
- Authors: Jiatong Li, Changdae Oh, Hyeong Kyu Choi, Jindong Wang, Sharon Li,
- Abstract要約: 思考の誘導による複雑なタスクにおける大規模言語モデル(LLM)の性能向上のための強力な手法として、推論の緩和が登場した。
本研究は,LLMエージェントの明示的思考効果に関する総合的研究である。
ユーザを巻き込んだ設定では,必須思考がエージェントのバックファイアを引き起こし,異常なパフォーマンス低下の原因となることが分かっています。
- 参考スコア(独自算出の注目度): 23.785816075149484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Eliciting reasoning has emerged as a powerful technique for improving the performance of large language models (LLMs) on complex tasks by inducing thinking. However, their effectiveness in realistic user-engaged agent scenarios remains unclear. In this paper, we conduct a comprehensive study on the effect of explicit thinking in user-engaged LLM agents. Our experiments span across seven models, three benchmarks, and two thinking instantiations, and we evaluate them through both a quantitative response taxonomy analysis and qualitative failure propagation case studies. Contrary to expectations, we find that mandatory thinking often backfires on agents in user-engaged settings, causing anomalous performance degradation across various LLMs. Our key finding reveals that thinking makes agents more ``introverted'' by shortening responses and reducing information disclosure to users, which weakens agent-user information exchange and leads to downstream task failures. Furthermore, we demonstrate that explicitly prompting for information disclosure reliably improves performance across diverse model families, suggesting that proactive transparency is a vital lever for agent optimization. Overall, our study suggests that information transparency awareness is a crucial yet underexplored perspective for the future design of reasoning agents in real-world scenarios. Our code is available at https://github.com/deeplearning-wisc/Thinking-Agent.
- Abstract(参考訳): 思考の誘導による複雑なタスクにおける大規模言語モデル(LLM)の性能向上のための強力な手法として、推論の緩和が登場した。
しかし、現実的なユーザエンゲージメントエージェントシナリオにおけるそれらの有効性は、まだ不明である。
本稿では,LLMエージェントにおける明示的思考の効果に関する総合的研究を行う。
実験は,7つのモデル,3つのベンチマーク,および2つの思考インスタンス化にまたがっており,定量的応答分類分析と定性的失敗伝播ケーススタディの両方を用いて評価する。
期待とは裏腹に,ユーザを巻き込んだ設定ではエージェントに対する強制的な思考がしばしばバックファイアを起こし,様々なLLMに対して異常な性能低下を引き起こしていることがわかった。
我々のキーとなる発見は、思考が、応答を短縮し、ユーザへの情報開示を減らすことによって、エージェントを「内向的」にし、エージェント・ユーザ情報交換を弱め、下流のタスク障害につながることを明らかにしている。
さらに,情報開示を明示的に促すことは,多種多様なモデルファミリ間の性能を確実に向上させることを実証し,プロアクティブな透明性がエージェント最適化に不可欠なレバーであることを示唆した。
我々の研究は、情報透明性の認識は、現実のシナリオにおける推論エージェントの将来の設計にとって、重要かつ未解明の視点であることを示唆している。
私たちのコードはhttps://github.com/deeplearning-wisc/Thinking-Agent.comで公開されています。
関連論文リスト
- Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Are Your Agents Upward Deceivers? [73.1073084327614]
大規模言語モデル(LLM)ベースのエージェントは、ユーザのためにタスクを実行する自律的な従属者として、ますます使われています。
これは、人間の組織の個人がどのように上官に嘘をついて良いイメージを作り出したり、罰を免れるかのような、詐欺にも関与するかどうかという問題を提起する。
本研究では,環境制約に直面するエージェントが障害を隠蔽し,報告なしに要求されない動作を行う現象であるエージェント上行錯誤を観察・定義する。
論文 参考訳(メタデータ) (2025-12-04T14:47:05Z) - Cognitive Inception: Agentic Reasoning against Visual Deceptions by Injecting Skepticism [81.39177645864757]
完全推論に基づくエージェント推論フレームワークであるtextbfInception を提案する。
私たちの知る限りでは、AIGCの視覚的騙しに対する完全な推論ベースのフレームワークとしてはこれが初めてです。
論文 参考訳(メタデータ) (2025-11-21T05:13:30Z) - Simulating Misinformation Vulnerabilities With Agent Personas [1.0120858915885353]
我々は,誤情報に対する応答をモデル化するために,大規模言語モデルを用いたエージェントベースシミュレーションを開発した。
5つの専門職と3つのメンタルスキーマにまたがるエージェントペルソナを構築し,ニュースの見出しに対する反応を評価する。
以上の結果から, LLM生成エージェントは, 情報応答研究のプロキシとしての利用を支援するため, 地中構造ラベルや人体予測と密接に一致していることが示唆された。
論文 参考訳(メタデータ) (2025-10-31T18:44:00Z) - JudgeAgent: Knowledge-wise and Dynamic LLM Evaluation with Agent-as-Interviewer [19.09571232466437]
大規模言語モデル(LLM)のための動的評価パラダイムであるエージェント・アズ・インタービューアを提案する。
現在のベンチマークや動的相互作用のパラダイムとは異なり、エージェント・アズ・インタービューアはエージェントを使用して動的マルチターン質問生成においてより広く深い知識を得るために知識ツールを呼び出します。
我々は、知識駆動型合成をエージェントのツールとして活用し、戦略指導として難易度スコアリングを利用する知識ワイドな動的評価フレームワークであるJiceAgentを開発する。
論文 参考訳(メタデータ) (2025-09-02T08:52:16Z) - Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。
本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。
キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。
このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文 参考訳(メタデータ) (2025-07-28T23:50:09Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Positive Experience Reflection for Agents in Interactive Text Environments [9.982616173090264]
Sweet&Sourは、ポジティブな経験と管理された記憶を取り入れた新しいアプローチで、意思決定時にエージェントが利用できるコンテキストを豊かにする。
包括的分析は、クローズドおよびオープンソース両方のLCMにまたがっており、エージェント性能改善におけるSweet&Sourの有効性を実証している。
論文 参考訳(メタデータ) (2024-11-04T16:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。