論文の概要: Beyond One Path: Evaluating and Enhancing Divergent Thinking in Interactive LLM Agents
- arxiv url: http://arxiv.org/abs/2605.28465v1
- Date: Wed, 27 May 2026 13:33:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.076233
- Title: Beyond One Path: Evaluating and Enhancing Divergent Thinking in Interactive LLM Agents
- Title(参考訳): 一つの経路を超えて:対話型LLMエージェントにおけるダイバージェント思考の評価と強化
- Authors: Jihyeong Park, Ingeol Baek, Jeonghyun Park, Hwanhee Lee,
- Abstract要約: MUTATEはエージェントの発散思考を2つのレベルで評価するインタラクティブなベンチマークである。
成功のみの評価とは異なり、MUTATEは完了したパスとオフパスの両方をスコアする。
本稿では,非制約分岐候補生成を収束制約選択から分離するReDNAを提案する。
- 参考スコア(独自算出の注目度): 12.548701965443373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Divergent thinking is a core dimension of creativity, yet existing evaluations of Large Language Models (LLMs) treat them as single-turn text generations, failing to capture how an agent reasons through iterative interaction. To address this, we introduce MUTATE, an interactive benchmark designed to evaluate agentic divergent thinking at two levels: path-level, where an agent discovers multiple alternative paths to the same goal, and action-level, where individual actions require non-typical, mechanism-shifting object uses. Unlike success-only evaluations, MUTATE scores both completed paths and off-path attempts, capturing divergent reasoning that conventional success rates discard. Our experiments with frontier LLMs reveal a structural blind spot in existing frameworks: when exposed to immediate convergence pressure, they tend to fall into immediate action fixation, failing to improve action-level divergence. To overcome this, we propose ReDNA, which separates unconstrained divergent candidate generation from convergent constraint selection. ReDNA significantly outperforms prior methods across both divergence levels and generalizes effectively to an external creativity environment. We also confirm its success stems from a qualitative enhancement of resilient divergent reasoning rather than simple environmental exploration.
- Abstract(参考訳): 多様性思考は創造性の中核的な次元であるが、LLM(Large Language Models)の既存の評価では、エージェントが反復的相互作用によってどのように原因を判断するかを把握できず、それらを単一のターンテキスト世代として扱う。
そこで本研究では,エージェントが同じ目標に対して複数の代替経路を探索するパスレベルと,個々のアクションが非典型的でメカニズムシフトするオブジェクトの使用を必要とするアクションレベルという,エージェントの発散思考を評価するためのインタラクティブなベンチマークであるMUTATEを紹介する。
成功のみの評価とは異なり、MUTATEは完了したパスとオフパスの試みの両方をスコア付けし、従来の成功率が放棄されるという分岐した推論をキャプチャする。
即時収束圧力にさらされると、それらは即時作用固定に陥り、作用レベルのばらつきを改善できない傾向にある。
そこで本研究では,非制約分岐候補生成を収束制約選択から分離するReDNAを提案する。
ReDNAは、両方の分岐レベルにまたがる先行手法を著しく上回り、外部の創造性環境に効果的に一般化する。
また, その成功は, 単純な環境探査ではなく, レジリエントな分岐推論の質的向上に起因することも確認した。
関連論文リスト
- Efficient Agent Evaluation via Diversity-Guided User Simulation [7.723545220477047]
DIVERTは、エージェント-ユーザインタラクションを体系的に探索するための、スナップショットベースの、カバレッジガイド付きユーザーシミュレーションフレームワークである。
重要な決定ポイントでエージェント環境の全状態をキャプチャし、これらのスナップショットから実行を再開する。
DIVERTは、意味的に多様性があり、探索されていない軌道に焦点を合わせることにより、効率とカバレッジの両方を改善している。
論文 参考訳(メタデータ) (2026-04-23T09:41:21Z) - Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - Reason in Chains, Learn in Trees: Self-Rectification and Grafting for Multi-turn Agent Policy Optimization [10.86007023031758]
大規模言語モデルエージェントの強化学習は、多段階推論タスクにおけるスパース報酬によって妨げられることが多い。
本稿では,T-STARを提案する。T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T- STAR,T-STAR,T-STAR,
論文 参考訳(メタデータ) (2026-04-08T14:55:29Z) - Agentic Critical Training [58.33938417298441]
大規模言語モデル(LLM)を自律エージェントとして訓練することは、しばしば模倣学習から始まる。
本稿ではエージェントクリティカルトレーニング(ACT)を提案する。これは,エージェントに対して,選択肢間のよりよい行動を特定するための強化学習パラダイムである。
ACTは、異なるポストトレーニングメソッドと組み合わせることで、エージェントのパフォーマンスを一貫して改善する。
論文 参考訳(メタデータ) (2026-03-09T17:58:56Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Self-Consolidation for Self-Evolving Agents [51.94826934403236]
大規模言語モデル(LLM)エージェントは静的システムとして機能し、生涯にわたる相互作用を通じて進化する能力に欠ける。
相補的進化機構を導入したLLMエージェントのための新しい自己進化フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-02T11:16:07Z) - Generative Human-Object Interaction Detection via Differentiable Cognitive Steering of Multi-modal LLMs [85.69785384599827]
人間と物体の相互作用(Human-object Interaction、HOI)の検出は、人と物体のペアとそれらの相互作用を局在させることを目的としている。
既存のメソッドはクローズドワールドの仮定の下で動作し、タスクを未定義の小さな動詞集合上の分類問題として扱う。
本稿では,閉集合分類タスクから開語彙生成問題へのHOI検出を再構成する新しい生成推論・ステアブル知覚フレームワークGRASP-HOを提案する。
論文 参考訳(メタデータ) (2025-12-19T14:41:50Z) - Thinking Forward and Backward: Multi-Objective Reinforcement Learning for Retrieval-Augmented Reasoning [137.33138614095435]
Retrieval-augmented Generation (RAG) は、大規模言語モデルにおける幻覚の緩和に有効であることが証明されている。
近年、検索に基づく対話をRAGに組み込んで、リアルタイム検索による反復推論を可能にしている。
提案するBi-RARは,各中間ステップを前方方向と後方方向の両方で共同で評価する,新たな検索拡張推論フレームワークである。
論文 参考訳(メタデータ) (2025-11-12T08:29:39Z) - MIRROR: Multi-agent Intra- and Inter-Reflection for Optimized Reasoning in Tool Learning [33.009759731505746]
ツール統合を含む複雑なタスクは、大規模言語モデルにとって大きな課題となる。
リフレクションはエージェントベンチマークにおける誤った軌道の修正に有効な戦略として現れている。
提案するMIRRORは,実行前に意図した動作を批判的に評価するフレームワークと,軌道のさらなる調整を行うインターリフレクションの両方からなるフレームワークである。
論文 参考訳(メタデータ) (2025-05-27T03:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。