論文の概要: LUMINA: Long-horizon Understanding for Multi-turn Interactive Agents
- arxiv url: http://arxiv.org/abs/2601.16649v1
- Date: Fri, 23 Jan 2026 11:13:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.648472
- Title: LUMINA: Long-horizon Understanding for Multi-turn Interactive Agents
- Title(参考訳): LUMINA:マルチターン対話エージェントの長距離理解
- Authors: Amin Rakhsha, Thomas Hehn, Pietro Mazzaglia, Fabio Valerio Massoli, Arash Behboodi, Tribhuvanesh Orekondy,
- Abstract要約: マルチターン問題に対するオラクル・デファクト・ファクト・フレームワークを開発した。
手続き的に生成されたゲームライクなタスクのスイートを、チューニング可能な複雑性で導入する。
本研究の結果から,いくつかの介入は環境や言語モデルの性能に左右されるが,他のスキルの有用性は環境や言語モデルに左右されることが示唆された。
- 参考スコア(独自算出の注目度): 15.732357447061988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models can perform well on many isolated tasks, yet they continue to struggle on multi-turn, long-horizon agentic problems that require skills such as planning, state tracking, and long context processing. In this work, we aim to better understand the relative importance of advancing these underlying capabilities for success on such tasks. We develop an oracle counterfactual framework for multi-turn problems that asks: how would an agent perform if it could leverage an oracle to perfectly perform a specific task? The change in the agent's performance due to this oracle assistance allows us to measure the criticality of such oracle skill in the future advancement of AI agents. We introduce a suite of procedurally generated, game-like tasks with tunable complexity. These controlled environments allow us to provide precise oracle interventions, such as perfect planning or flawless state tracking, and make it possible to isolate the contribution of each oracle without confounding effects present in real-world benchmarks. Our results show that while some interventions (e.g., planning) consistently improve performance across settings, the usefulness of other skills is dependent on the properties of the environment and language model. Our work sheds light on the challenges of multi-turn agentic environments to guide the future efforts in the development of AI agents and language models.
- Abstract(参考訳): 大規模言語モデルは、多くの独立したタスクでうまく機能するが、計画、状態追跡、長期コンテキスト処理といったスキルを必要とする、多ターンで長期のエージェント問題に苦しむ。
本研究は,このようなタスクを成功させるために,これらの基礎となる能力を前進させることの相対的重要性をよりよく理解することを目的としている。
エージェントが特定のタスクを完璧に実行するためにオラクルを活用できるとしたら、エージェントはどのように振る舞うのか?
このオラクル支援によるエージェントのパフォーマンスの変化により、今後AIエージェントの進歩において、そのようなオラクルスキルの臨界度を測定することができる。
手続き的に生成されたゲームライクなタスクのスイートを、チューニング可能な複雑性で導入する。
これらの制御された環境は、完璧な計画や欠陥のない状態追跡のような正確なオラクルの介入を提供し、現実世界のベンチマークに現れる影響を埋め合わせることなく、各オラクルの貢献を分離することを可能にする。
その結果,いくつかの介入(プランニングなど)が,環境や言語モデルの性質に依存していることが明らかとなった。
私たちの仕事は、AIエージェントと言語モデルの開発における今後の取り組みを導くために、マルチターンエージェント環境の課題に光を当てています。
関連論文リスト
- Graphs Meet AI Agents: Taxonomy, Progress, and Future Opportunities [117.49715661395294]
データ構造化は、複雑で非組織的なデータをよく構造化された形式に変換することで、有望な役割を果たす。
この調査では、グラフがAIエージェントにどのように権限を与えるかを、初めて体系的にレビューする。
論文 参考訳(メタデータ) (2025-06-22T12:59:12Z) - TaskCraft: Automated Generation of Agentic Tasks [39.33785092294476]
エージェントタスクは、自律性、ツールの使用、適応推論による多段階的な問題解決を必要とする。
textscCraftTaskは、難易度、マルチツール、検証可能なエージェントタスクを生成する自動化ワークフローである。
本稿では,エージェントチューニングと評価に関する今後の研究を支援するために,約36,000のタスクからなる大規模合成データセットを提案する。
論文 参考訳(メタデータ) (2025-06-11T17:58:14Z) - TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks [55.03911355902567]
我々は、デジタルワーカーと同じような方法で世界と対話するAIエージェントを評価するためのベンチマークであるTheAgentCompanyを紹介する。
最も競争力のあるエージェントは、タスクの30%を自律的に完了させることができる。
これは、実際の職場の設定でLMエージェントをシミュレートすることで、タスク自動化に関する微妙な絵を描く。
論文 参考訳(メタデータ) (2024-12-18T18:55:40Z) - A Survey on Complex Tasks for Goal-Directed Interactive Agents [60.53915548970061]
この調査は、目標指向の対話エージェントを評価するための、関連するタスクと環境をコンパイルする。
関連リソースの最新のコンパイルは、プロジェクトのWebサイトにある。
論文 参考訳(メタデータ) (2024-09-27T08:17:53Z) - TPTU: Large Language Model-based AI Agents for Task Planning and Tool
Usage [28.554981886052953]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションのための強力なツールとして登場した。
LLMの本質的な生成能力は、その長所にもかかわらず、複雑なタスクを扱うには不十分である。
本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T09:22:03Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。