論文の概要: Tapilot-Crossing: Benchmarking and Evolving LLMs Towards Interactive
Data Analysis Agents
- arxiv url: http://arxiv.org/abs/2403.05307v1
- Date: Fri, 8 Mar 2024 13:34:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 19:39:28.969770
- Title: Tapilot-Crossing: Benchmarking and Evolving LLMs Towards Interactive
Data Analysis Agents
- Title(参考訳): Tapilot-Crossing: 対話型データ分析エージェントに向けたLCMのベンチマークと進化
- Authors: Jinyang Li, Nan Huo, Yan Gao, Jiayi Shi, Yingxiu Zhao, Ge Qu, Yurong
Wu, Chenhao Ma, Jian-Guang Lou, Reynold Cheng
- Abstract要約: 本稿では,対話型データ解析におけるLarge Language Model (LLM) エージェントの評価のための新しいベンチマークであるTapilot-Crossingを紹介する。
タピロット・クロッシングは経済的なマルチエージェント環境であるDecision Companyによって建設され、人間の努力は少ない。
本稿では, LLM エージェントが成功した歴史から学ぶための自己生成リフレクション戦略である Adaptive Interaction Reflection (AIR) を提案する。
- 参考スコア(独自算出の注目度): 37.13173081205632
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Interactive Data Analysis, the collaboration between humans and LLM agents,
enables real-time data exploration for informed decision-making. The challenges
and costs of collecting realistic interactive logs for data analysis hinder the
quantitative evaluation of Large Language Model (LLM) agents in this task. To
mitigate this issue, we introduce Tapilot-Crossing, a new benchmark to evaluate
LLM agents on interactive data analysis. Tapilot-Crossing contains 1024
interactions, covering 4 practical scenarios: Normal, Action, Private, and
Private Action. Notably, Tapilot-Crossing is constructed by an economical
multi-agent environment, Decision Company, with few human efforts. We evaluate
popular and advanced LLM agents in Tapilot-Crossing, which underscores the
challenges of interactive data analysis. Furthermore, we propose Adaptive
Interaction Reflection (AIR), a self-generated reflection strategy that guides
LLM agents to learn from successful history. Experiments demonstrate that Air
can evolve LLMs into effective interactive data analysis agents, achieving a
relative performance improvement of up to 44.5%.
- Abstract(参考訳): 人間とLLMエージェントのコラボレーションであるInteractive Data Analysisは、情報意思決定のためのリアルタイムデータ探索を可能にする。
データ解析のためのリアルな対話ログ収集の課題とコストは、このタスクにおけるLarge Language Model (LLM)エージェントの定量的評価を妨げる。
この問題を軽減するために,対話型データ解析におけるLLMエージェント評価のための新しいベンチマークであるTapilot-Crossingを導入する。
Tapilot-Crossingには1024のインタラクションがあり、通常、アクション、プライベート、プライベートアクションの4つのシナリオをカバーする。
タピロット・クロッシングは、経済的なマルチエージェント環境である意思決定会社(Decision Company)によって建設され、人間の努力は少ない。
対話型データ解析の課題を浮き彫りにしたTapilot-CrossingにおけるLLMエージェントの評価を行った。
さらに, LLMエージェントが成功した歴史から学ぶための自己生成リフレクション戦略であるAdaptive Interaction Reflection (AIR)を提案する。
実験により、AirはLCMを効果的な対話型データ分析エージェントに進化させ、44.5%の相対的な性能向上を達成できることが示された。
関連論文リスト
- PLAYER*: Enhancing LLM-based Multi-Agent Communication and Interaction in Murder Mystery Games [18.383262467079078]
PLAYER*は、任意のサンプリングベースのプランナーに基づく新しいフレームワークである。
センサーとプルーナーを使って、複雑な推論タスクのための純粋に質問駆動の検索フレームワークを可能にする。
複雑な動的環境における既存の手法と比較してPLAYER*の効率性と性能の向上を実証する実験を行った。
論文 参考訳(メタデータ) (2024-04-26T19:07:30Z) - Cooperate or Collapse: Emergence of Sustainability Behaviors in a Society of LLM Agents [101.17919953243107]
本稿では,大規模言語モデル(LLM)における戦略的相互作用と協調的意思決定を研究するためのシミュレーションプラットフォームであるGovSimについて紹介する。
我々は,AIエージェント間の資源共有のダイナミクスを探求し,倫理的考察,戦略的計画,交渉スキルの重要性を強調した。
GovSimでは、15の試験されたLLMのうち、持続可能な結果を達成することができたのはわずか2つであり、モデルが共有リソースを管理する能力に重大なギャップがあることを示唆している。
論文 参考訳(メタデータ) (2024-04-25T15:59:16Z) - Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts [10.929547354171723]
本稿では,言語モデルロールアウト(KALM)の知識エージェントを紹介する。
大規模言語モデル(LLM)から、オフラインの強化学習手法によってエージェントが容易に学習できる想像上のロールアウトの形で知識を抽出する。
未確認の目標を持つタスクの実行において46%の成功率を達成し、ベースラインメソッドによって達成された26%の成功率を大幅に上回る。
論文 参考訳(メタデータ) (2024-04-14T13:19:40Z) - LLMArena: Assessing Capabilities of Large Language Models in Dynamic
Multi-Agent Environments [35.926581910260076]
マルチエージェント動的環境における大規模言語モデルの能力を評価するためのフレームワークであるLLMArenaを紹介する。
LLArenaはTrueskillスコアを使用して、空間推論、戦略的計画、数値推論、リスク評価、コミュニケーション、相手モデリング、チームコラボレーションなど、LLMエージェントの重要な能力を評価する。
我々は、LLMの規模や種類によって、広範囲にわたる実験と人的評価を行い、LLMは、完全に自律的なエージェントへと発展する上で、依然として重要な道のりを歩んでいることを示す。
論文 参考訳(メタデータ) (2024-02-26T11:31:48Z) - Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - Enabling Intelligent Interactions between an Agent and an LLM: A
Reinforcement Learning Approach [33.24651276102073]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。
LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。
本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文 参考訳(メタデータ) (2023-06-06T11:49:09Z) - Masked Path Modeling for Vision-and-Language Navigation [41.7517631477082]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)エージェントは、自然言語の指示に従うことで現実世界の環境をナビゲートするように訓練されている。
以前のアプローチでは、トレーニング中に追加の監督を導入することでこの問題に対処しようと試みていた。
本稿では,下流ナビゲーションタスクに自己コンパイルデータを用いてエージェントを事前訓練する,マスク付きパスモデリング(MPM)手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T17:20:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。