論文の概要: OrgAccess: A Benchmark for Role Based Access Control in Organization Scale LLMs
- arxiv url: http://arxiv.org/abs/2505.19165v1
- Date: Sun, 25 May 2025 14:30:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.945866
- Title: OrgAccess: A Benchmark for Role Based Access Control in Organization Scale LLMs
- Title(参考訳): OrgAccess: 組織規模のLLMにおけるロールベースのアクセス制御のベンチマーク
- Authors: Debdeep Sanyal Umakanta Maharana, Yash Sinha, Hong Ming Tan, Shirish Karande, Mohan Kankanhalli, Murari Mandal,
- Abstract要約: 大規模言語モデル(LLM)は、エンタープライズ環境での統合知識リポジトリとインテリジェントアシスタントとして機能する。
この重要な能力を評価することは、現実の企業データとアクセス制御ポリシーの独自性と機密性のため、本質的に難しい。
組織の役割やレベルに共通する40種類のパーミッションからなる,総合的かつ代表的な textbfOrgAccess ベンチマークを導入する。
- 参考スコア(独自算出の注目度): 8.299974423916598
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Role-based access control (RBAC) and hierarchical structures are foundational to how information flows and decisions are made within virtually all organizations. As the potential of Large Language Models (LLMs) to serve as unified knowledge repositories and intelligent assistants in enterprise settings becomes increasingly apparent, a critical, yet under explored, challenge emerges: \textit{can these models reliably understand and operate within the complex, often nuanced, constraints imposed by organizational hierarchies and associated permissions?} Evaluating this crucial capability is inherently difficult due to the proprietary and sensitive nature of real-world corporate data and access control policies. We introduce a synthetic yet representative \textbf{OrgAccess} benchmark consisting of 40 distinct types of permissions commonly relevant across different organizational roles and levels. We further create three types of permissions: 40,000 easy (1 permission), 10,000 medium (3-permissions tuple), and 20,000 hard (5-permissions tuple) to test LLMs' ability to accurately assess these permissions and generate responses that strictly adhere to the specified hierarchical rules, particularly in scenarios involving users with overlapping or conflicting permissions. Our findings reveal that even state-of-the-art LLMs struggle significantly to maintain compliance with role-based structures, even with explicit instructions, with their performance degrades further when navigating interactions involving two or more conflicting permissions. Specifically, even \textbf{GPT-4.1 only achieves an F1-Score of 0.27 on our hardest benchmark}. This demonstrates a critical limitation in LLMs' complex rule following and compositional reasoning capabilities beyond standard factual or STEM-based benchmarks, opening up a new paradigm for evaluating their fitness for practical, structured environments.
- Abstract(参考訳): ロールベースのアクセス制御(RBAC)と階層構造は、情報フローと決定が事実上すべての組織内でどのように行われるかに基礎を置いている。
エンタープライズ環境での統合知識リポジトリやインテリジェントアシスタントとして機能する大規模言語モデル(LLM)のポテンシャルがますます顕在化するにつれ、批判的だが検討中の課題が浮かび上がってくる。
} この重要な能力を評価することは、現実の企業データとアクセス制御ポリシーの独自かつ機密性の高い性質のため、本質的に困難です。
組織の役割やレベルに共通する40種類のパーミッションからなる,合成的だが代表的である \textbf{OrgAccess} ベンチマークを導入する。
さらに4万のパーミッション(1パーミッション)、10,000のメディア(3パーミッションタプル)、20,000のハード(5パーミッションタプル)という3種類のパーミッションを作成し、それらのパーミッションを正確に評価し、特定の階層的なルールに厳密に準拠する応答を生成する。
現状のLLMでさえ,2つ以上の競合するパーミッションを含むインタラクションをナビゲートする場合,その性能はさらに低下し,明示的な指示を伴ってもロールベース構造へのコンプライアンス維持に苦慮していることが明らかとなった。
具体的には、 \textbf{GPT-4.1 でさえ、最も厳しいベンチマークで F1-Score の 0.27 しか達成しない。
このことは、LLMsの複雑な規則に従う重要な制限と、標準事実またはSTEMベースのベンチマークを超えて構成的推論能力を示し、実践的で構造化された環境に対する適合性を評価するための新しいパラダイムを開放する。
関連論文リスト
- HiBench: Benchmarking LLMs Capability on Hierarchical Structure Reasoning [25.088407009353162]
構造推論のための既存のベンチマークは主に水平構造と座標構造に焦点を当てている。
HiBenchは、最初の構造生成から最終的な熟練度評価まで、最初のフレームワークである。
30のタスクで構成され、総クエリ数は39,519である。
論文 参考訳(メタデータ) (2025-03-02T14:25:37Z) - Benchmarking Complex Instruction-Following with Multiple Constraints Composition [72.82640456309821]
大規模言語モデル(LLM)の複雑な命令追従能力の評価方法が重要な研究課題となっている。
既存のベンチマークは主に、異なる制約の構成を無視しながら、人間の指示で異なるタイプの制約をモデル化することに焦点を当てている。
複数の制約からなる複雑な命令に従うLLMの能力を総合的に評価するためのベンチマークである ComplexBench を提案する。
論文 参考訳(メタデータ) (2024-07-04T14:50:45Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - ERBench: An Entity-Relationship based Automatically Verifiable Hallucination Benchmark for Large Language Models [46.07900122810749]
大規模言語モデル(LLM)は、様々なアプリケーションで前例のない性能を達成したが、評価は依然として難しい。
既存のリレーショナルデータベースを利用することは、ベンチマークを構築する上で有望なアプローチである、と我々は主張する。
我々は,これらの整合性制約を用いて任意のデータベースをLLMベンチマークに変換するERBenchを提案する。
論文 参考訳(メタデータ) (2024-03-08T12:42:36Z) - DePLOI: Applying NL2SQL to Synthesize and Audit Database Access Control [6.2859996652179]
本稿では,Intent-Based Access Control for Database (IBAC-DB) と呼ばれる新しいアクセス制御モデルを提案する。
IBAC-DBでは、アクセス制御ポリシーは、多数のデータベースオブジェクトにスケールする抽象化を使用して表現され、実装に関してトレース可能である。
本稿では,IBAC-DB抽象化からアクセス制御の実装を正確に合成し,監査するために,アクセス制御固有のタスク分解を利用するシステムであるDePLOIを提案する。
論文 参考訳(メタデータ) (2024-02-11T23:50:12Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。