論文の概要: Tapilot-Crossing: Benchmarking and Evolving LLMs Towards Interactive
Data Analysis Agents
- arxiv url: http://arxiv.org/abs/2403.05307v1
- Date: Fri, 8 Mar 2024 13:34:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 19:39:28.969770
- Title: Tapilot-Crossing: Benchmarking and Evolving LLMs Towards Interactive
Data Analysis Agents
- Title(参考訳): Tapilot-Crossing: 対話型データ分析エージェントに向けたLCMのベンチマークと進化
- Authors: Jinyang Li, Nan Huo, Yan Gao, Jiayi Shi, Yingxiu Zhao, Ge Qu, Yurong
Wu, Chenhao Ma, Jian-Guang Lou, Reynold Cheng
- Abstract要約: 本稿では,対話型データ解析におけるLarge Language Model (LLM) エージェントの評価のための新しいベンチマークであるTapilot-Crossingを紹介する。
タピロット・クロッシングは経済的なマルチエージェント環境であるDecision Companyによって建設され、人間の努力は少ない。
本稿では, LLM エージェントが成功した歴史から学ぶための自己生成リフレクション戦略である Adaptive Interaction Reflection (AIR) を提案する。
- 参考スコア(独自算出の注目度): 37.13173081205632
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Interactive Data Analysis, the collaboration between humans and LLM agents,
enables real-time data exploration for informed decision-making. The challenges
and costs of collecting realistic interactive logs for data analysis hinder the
quantitative evaluation of Large Language Model (LLM) agents in this task. To
mitigate this issue, we introduce Tapilot-Crossing, a new benchmark to evaluate
LLM agents on interactive data analysis. Tapilot-Crossing contains 1024
interactions, covering 4 practical scenarios: Normal, Action, Private, and
Private Action. Notably, Tapilot-Crossing is constructed by an economical
multi-agent environment, Decision Company, with few human efforts. We evaluate
popular and advanced LLM agents in Tapilot-Crossing, which underscores the
challenges of interactive data analysis. Furthermore, we propose Adaptive
Interaction Reflection (AIR), a self-generated reflection strategy that guides
LLM agents to learn from successful history. Experiments demonstrate that Air
can evolve LLMs into effective interactive data analysis agents, achieving a
relative performance improvement of up to 44.5%.
- Abstract(参考訳): 人間とLLMエージェントのコラボレーションであるInteractive Data Analysisは、情報意思決定のためのリアルタイムデータ探索を可能にする。
データ解析のためのリアルな対話ログ収集の課題とコストは、このタスクにおけるLarge Language Model (LLM)エージェントの定量的評価を妨げる。
この問題を軽減するために,対話型データ解析におけるLLMエージェント評価のための新しいベンチマークであるTapilot-Crossingを導入する。
Tapilot-Crossingには1024のインタラクションがあり、通常、アクション、プライベート、プライベートアクションの4つのシナリオをカバーする。
タピロット・クロッシングは、経済的なマルチエージェント環境である意思決定会社(Decision Company)によって建設され、人間の努力は少ない。
対話型データ解析の課題を浮き彫りにしたTapilot-CrossingにおけるLLMエージェントの評価を行った。
さらに, LLMエージェントが成功した歴史から学ぶための自己生成リフレクション戦略であるAdaptive Interaction Reflection (AIR)を提案する。
実験により、AirはLCMを効果的な対話型データ分析エージェントに進化させ、44.5%の相対的な性能向上を達成できることが示された。
関連論文リスト
- NewsInterview: a Dataset and a Playground to Evaluate LLMs' Ground Gap via Informational Interviews [65.35458530702442]
我々はジャーナリストのインタビューに焦点をあて、コミュニケーションの基盤と豊富なデータに富んだドメインに焦点をあてる。
我々はNPRとCNNから4万人の2人によるインフォメーションインタビューのデータセットをキュレートする。
LLMは、人間のインタビュアーよりも、認識を使い、より高いレベルの質問に目を向ける可能性がはるかに低い。
論文 参考訳(メタデータ) (2024-11-21T01:37:38Z) - MLLM as Retriever: Interactively Learning Multimodal Retrieval for Embodied Agents [28.419007116364668]
MLLMエージェントは、マルチモーダルなタスク関連軌道データを取得することで、複雑なエンボディされたタスクの可能性を実証する。
現在の検索手法は、主に軌跡におけるテキストや視覚的手がかりの表面レベルでの類似性に注目し、その特定のタスクに対する有効性を無視している。
本稿では,MLLMレシーバを微調整するためのインタラクションデータを活用することで,組込みエージェントの性能を向上させる新しい手法であるMLLM as ReTriever (MART)を提案する。
論文 参考訳(メタデータ) (2024-10-04T14:10:39Z) - On the limits of agency in agent-based models [13.130587222524305]
エージェントベースモデリングは複雑なシステムに対する強力な洞察を提供するが、その実用性は計算の制約によって制限されている。
大規模言語モデル(LLM)の最近の進歩は、適応エージェントによるABMを強化する可能性があるが、大規模なシミュレーションへの統合は依然として困難である。
大規模シミュレーションにおいて,行動複雑性と計算効率のバランスをとる手法であるLSMアーチタイプを提案する。
論文 参考訳(メタデータ) (2024-09-14T04:17:24Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts [10.929547354171723]
本稿では,言語モデルロールアウト(KALM)の知識エージェントを紹介する。
大規模言語モデル(LLM)から、オフラインの強化学習手法によってエージェントが容易に学習できる想像上のロールアウトの形で知識を抽出する。
未確認の目標を持つタスクの実行において46%の成功率を達成し、ベースラインメソッドによって達成された26%の成功率を大幅に上回る。
論文 参考訳(メタデータ) (2024-04-14T13:19:40Z) - LLMArena: Assessing Capabilities of Large Language Models in Dynamic
Multi-Agent Environments [35.926581910260076]
マルチエージェント動的環境における大規模言語モデルの能力を評価するためのフレームワークであるLLMArenaを紹介する。
LLArenaはTrueskillスコアを使用して、空間推論、戦略的計画、数値推論、リスク評価、コミュニケーション、相手モデリング、チームコラボレーションなど、LLMエージェントの重要な能力を評価する。
我々は、LLMの規模や種類によって、広範囲にわたる実験と人的評価を行い、LLMは、完全に自律的なエージェントへと発展する上で、依然として重要な道のりを歩んでいることを示す。
論文 参考訳(メタデータ) (2024-02-26T11:31:48Z) - Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。