論文の概要: InData: Towards Secure Multi-Step, Tool-Based Data Analysis
- arxiv url: http://arxiv.org/abs/2511.11933v1
- Date: Fri, 14 Nov 2025 23:15:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.404473
- Title: InData: Towards Secure Multi-Step, Tool-Based Data Analysis
- Title(参考訳): InData: セキュアなマルチステップツールベースのデータ分析を目指す
- Authors: Karthikeyan K, Raghuveer Thirukovalluru, Bhuwan Dhingra, David Edwin Carlson,
- Abstract要約: データ分析のための大規模言語モデルエージェントは通常、データベース上で直接コードを生成し実行します。
センシティブなデータに適用すると、このアプローチは重大なセキュリティリスクを引き起こす。
我々は,LSMを直接コード生成やデータアクセスから制限する,セキュリティを動機とする代替案を提案する。
- 参考スコア(独自算出の注目度): 14.747262624116551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model agents for data analysis typically generate and execute code directly on databases. However, when applied to sensitive data, this approach poses significant security risks. To address this issue, we propose a security-motivated alternative: restrict LLMs from direct code generation and data access, and require them to interact with data exclusively through a predefined set of secure, verified tools. Although recent tool-use benchmarks exist, they primarily target tool selection and simple execution rather than the compositional, multi-step reasoning needed for complex data analysis. To reduce this gap, we introduce Indirect Data Engagement (InData), a dataset designed to assess LLMs' multi-step tool-based reasoning ability. InData includes data analysis questions at three difficulty levels--Easy, Medium, and Hard--capturing increasing reasoning complexity. We benchmark 15 open-source LLMs on InData and find that while large models (e.g., gpt-oss-120b) achieve high accuracy on Easy tasks (97.3%), performance drops sharply on Hard tasks (69.6%). These results show that current LLMs still lack robust multi-step tool-based reasoning ability. With InData, we take a step toward enabling the development and evaluation of LLMs with stronger multi-step tool-use capabilities. We will publicly release the dataset and code.
- Abstract(参考訳): データ分析のための大規模言語モデルエージェントは通常、データベース上で直接コードを生成し実行します。
しかし、センシティブなデータに適用すると、このアプローチは重大なセキュリティリスクを引き起こす。
この問題に対処するために,私たちは,LSMを直接コード生成やデータアクセスから制限し,事前に定義されたセキュアで検証済みのツールセットを通じてのみデータと対話する必要がある,という,セキュリティを動機とする代替案を提案する。
最近のツール利用ベンチマークは存在するが、それらは主に複雑なデータ分析に必要な構成的で多段階の推論ではなく、ツールの選択と単純な実行をターゲットにしている。
このギャップを減らすために、LLMの多段階ツールベースの推論能力を評価するために設計されたデータセットであるIndirect Data Engagement(InData)を導入する。
InDataには、データ分析の3つの難易度に関する質問が含まれている。
InData上で15のオープンソースLCMをベンチマークし、大規模なモデル(例: gpt-oss-120b)がEasyタスク(97.3%)で高い精度を実現しているのに対して、Hardタスク(69.6%)ではパフォーマンスが急激に低下していることを発見した。
これらの結果から,現在のLLMは多段階ツールベースの推論能力に欠けていたことが示唆された。
InData では,より強力な多段階ツール機能を備えた LLM の開発と評価を実現するための一歩を踏み出した。
データセットとコードを公開します。
関連論文リスト
- LLM/Agent-as-Data-Analyst: A Survey [54.08761322298559]
大規模言語モデル(LLM)とエージェント技術は、データ分析タスクの機能と開発パラダイムに根本的な変化をもたらした。
LLMは複雑なデータ理解、自然言語、意味分析機能、自律パイプラインオーケストレーションを可能にする。
論文 参考訳(メタデータ) (2025-09-28T17:31:38Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models [79.65071553905021]
所望のデータセットの特徴を考慮したデータ生成手法であるデータアドバイザを提案する。
Data Advisorは生成されたデータの状態を監視し、現在のデータセットの弱点を特定し、データ生成の次のイテレーションをアドバイスする。
論文 参考訳(メタデータ) (2024-10-07T17:59:58Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
不完全なドキュメンテーション、不正確なラベル、倫理的懸念、時代遅れの情報といったデータ品質問題は、広く使われているデータセットで共通している。
大きな言語モデル(LLM)の急増する能力により、LLMエージェントによる隠れデータセット問題の発見の合理化が約束されている。
本研究では,この課題に対処するLLMエージェントの能力を評価するためのベンチマークを確立する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。