論文の概要: U-Fold: Dynamic Intent-Aware Context Folding for User-Centric Agents
- arxiv url: http://arxiv.org/abs/2601.18285v1
- Date: Mon, 26 Jan 2026 09:11:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 17:22:45.367186
- Title: U-Fold: Dynamic Intent-Aware Context Folding for User-Centric Agents
- Title(参考訳): U-Fold: ユーザ中心エージェントのための動的インテント対応コンテキストフォールディング
- Authors: Jin Su, Runnan Fang, Yeqiu Li, Xiaobin Wang, Shihao Cai, Pengjun Xie, Ningyu Zhang, Fajie Yuan,
- Abstract要約: U-Foldはユーザ中心のタスクに適した動的コンテキスト折り畳みフレームワークである。
U-Foldは、$-bench、$$$-bench、VitaBench、コンテクストを膨らませた設定で、常にReActを上回っている。
- 参考スコア(独自算出の注目度): 42.665703816367035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM)-based agents have been successfully deployed in many tool-augmented settings, but their scalability is fundamentally constrained by context length. Existing context-folding methods mitigate this issue by summarizing past interactions, yet they are typically designed for single-query or single-intent scenarios. In more realistic user-centric dialogues, we identify two major failure modes: (i) they irreversibly discard fine-grained constraints and intermediate facts that are crucial for later decisions, and (ii) their summaries fail to track evolving user intent, leading to omissions and erroneous actions. To address these limitations, we propose U-Fold, a dynamic context-folding framework tailored to user-centric tasks. U-Fold retains the full user--agent dialogue and tool-call history but, at each turn, uses two core components to produce an intent-aware, evolving dialogue summary and a compact, task-relevant tool log. Extensive experiments on $τ$-bench, $τ^2$-bench, VitaBench, and harder context-inflated settings show that U-Fold consistently outperforms ReAct (achieving a 71.4% win rate in long-context settings) and prior folding baselines (with improvements of up to 27.0%), particularly on long, noisy, multi-turn tasks. Our study demonstrates that U-Fold is a promising step toward transferring context-management techniques from single-query benchmarks to realistic user-centric applications.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントは、多くのツール拡張された設定でうまくデプロイされているが、そのスケーラビリティは基本的にコンテキスト長によって制限されている。
既存のコンテキストフォールディングメソッドは過去のインタラクションを要約することでこの問題を軽減するが、通常は単一クエリや単一インテントのシナリオ用に設計されている。
より現実的なユーザ中心の対話では、2つの大きな障害モードを特定します。
一 後述の判断に欠かせない細かな制約及び中間事実を不可逆的に破棄すること
(ii) 要約は、進化するユーザの意図を追跡できず、省略や誤動作につながる。
これらの制約に対処するため,ユーザ中心タスクに適した動的コンテキストフォールディングフレームワークであるU-Foldを提案する。
U-Foldは、ユーザエージェントの対話とツールコール履歴を完全に保持するが、各ターンで2つのコアコンポーネントを使用して、意図を認識し、進化する対話の要約と、コンパクトでタスク関連のツールログを生成する。
τ$-bench, $τ^2$-bench, VitaBench, and hard context-inflated settings の広範な実験により、U-Fold は連続して ReAct を上回り(長いコンテキスト設定で71.4%の勝利率)、以前の折りたたみベースライン(最大27.0%の改善)、特に長くノイズの多いマルチターンタスクを上回ります。
我々の研究は、U-Foldが単一クエリのベンチマークから現実的なユーザ中心のアプリケーションへのコンテキスト管理技術を移行するための有望なステップであることを実証している。
関連論文リスト
- One Battle After Another: Probing LLMs' Limits on Multi-Turn Instruction Following with a Benchmark Evolving Framework [51.50565654314582]
大規模言語モデルは、複数のトピックにまたがる対話を通して、ユーザの指示に従うことができる。
既存のベンチマークは、しばしば一定回数のターンに制限されるため、飽和の影響を受けにくく、ユーザのインタラクティブなエクスペリエンスを考慮できない。
マルチターン命令追従能力を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T14:39:59Z) - UserBench: An Interactive Gym Environment for User-Centric Agents [110.77212949007958]
LLM(Large Language Models)ベースのエージェントは、推論とツールの使用において、目覚ましい進歩を遂げてきたが、ユーザと積極的にコラボレーションする能力はまだ未熟である。
マルチターン、選好駆動インタラクションにおいてエージェントを評価するために設計されたユーザ中心のベンチマークであるUserBenchを紹介する。
論文 参考訳(メタデータ) (2025-07-29T17:34:12Z) - RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing [133.0641538589466]
RMTBenchは、80の多様な文字と8000以上の対話ラウンドを特徴とする、総合的なテキストバプサー中心のバイリンガルロールプレイングベンチマークである。
本ベンチマークでは,文字記述よりも明示的なユーザモチベーションに基づく対話を構築し,実用的なユーザアプリケーションとの整合性を確保する。
RMTBenchは、キャラクタバックグラウンドからユーザ意図のフルフィルメントにフォーカスを移すことで、学術的な評価と実践的なデプロイメント要件のギャップを埋める。
論文 参考訳(メタデータ) (2025-07-27T16:49:47Z) - CLEAR-KGQA: Clarification-Enhanced Ambiguity Resolution for Knowledge Graph Question Answering [13.624962763072899]
KGQAシステムは通常、ユーザクエリは曖昧であると仮定するが、これは現実世界のアプリケーションではめったに行われない仮定である。
本稿では,対話的明確化を通じて,エンティティのあいまいさ(類似した名前を持つエンティティの区別など)と意図のあいまいさ(ユーザクエリの異なる解釈を明確にするなど)を動的に扱う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-13T17:34:35Z) - NeedleBench: Evaluating LLM Retrieval and Reasoning Across Varying Information Densities [51.07379913779232]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。
モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。
実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。