論文の概要: Responsible LLM Deployment for High-Stake Decisions by Decentralized Technologies and Human-AI Interactions
- arxiv url: http://arxiv.org/abs/2512.04108v1
- Date: Fri, 28 Nov 2025 18:10:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.776474
- Title: Responsible LLM Deployment for High-Stake Decisions by Decentralized Technologies and Human-AI Interactions
- Title(参考訳): 分散型技術と人間-AIインタラクションによる高分解能化のためのレスポンシブルLCM展開
- Authors: Swati Sachan, Theo Miller, Mai Phuong Nguyen,
- Abstract要約: 本稿では, LLMに基づく意思決定支援システムを, アクティブな人的関与を通じて, 責任ある展開を行うための枠組みを提案する。
デプロイ前の段階で、複数のイテレーションを通じて、人間専門家と開発者の対話的なコラボレーションを統合する。
Bert-large-uncased、MistLaMA 2、LLaMA 3モデルでテストされ、ビジネス融資における責任ある金銭的決定を支援する能力を評価した。
- 参考スコア(独自算出の注目度): 1.2464143741310136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-stakes decision domains are increasingly exploring the potential of Large Language Models (LLMs) for complex decision-making tasks. However, LLM deployment in real-world settings presents challenges in data security, evaluation of its capabilities outside controlled environments, and accountability attribution in the event of adversarial decisions. This paper proposes a framework for responsible deployment of LLM-based decision-support systems through active human involvement. It integrates interactive collaboration between human experts and developers through multiple iterations at the pre-deployment stage to assess the uncertain samples and judge the stability of the explanation provided by post-hoc XAI techniques. Local LLM deployment within organizations and decentralized technologies, such as Blockchain and IPFS, are proposed to create immutable records of LLM activities for automated auditing to enhance security and trace back accountability. It was tested on Bert-large-uncased, Mistral, and LLaMA 2 and 3 models to assess the capability to support responsible financial decisions on business lending.
- Abstract(参考訳): 複雑な意思決定タスクに対するLarge Language Models (LLM) の可能性を探っている。
しかし、実世界の環境におけるLCMの展開は、データセキュリティ、制御された環境外におけるその能力の評価、敵対的決定の際の説明責任の帰属といった課題を呈している。
本稿では, LLMに基づく意思決定支援システムを, アクティブな人的関与を通じて, 責任ある展開を行うための枠組みを提案する。
デプロイ前の複数のイテレーションを通じて、人間専門家と開発者の対話的なコラボレーションを統合し、不確実なサンプルを評価し、ポストホックXAIテクニックによって提供される説明の安定性を判断する。
組織内のローカルなLLMデプロイメントとBlockchainやIPFSといった分散技術は、セキュリティを強化し、バックカウンタビリティをトレースするために、自動監査のためのLLMアクティビティの不変レコードを作成するために提案されている。
Bert-large-uncased、Mistral、LLaMA 2、LLaMA 3モデルでテストされ、ビジネス融資における責任ある金銭的決定を支援する能力を評価した。
関連論文リスト
- Strategic Decision Framework for Enterprise LLM Adoption [0.0]
大規模言語モデル(LLM)は、コンテンツ生成、コーディング支援、プロセス自動化に強力な機能を提供する。
本稿では,LSM導入のための系統的な6段階決定フレームワークについて述べる。
ビジネスリーダが技術的能力とビジネス目標を整合させるための実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-11-23T19:05:52Z) - Agentic AI Reasoning for Mobile Edge General Intelligence: Fundamentals, Approaches, and Directions [74.35421055079655]
大規模言語モデル(LLM)は、強力な推論と自律的な意思決定能力を備えたエージェント人工知能(AI)の出現を可能にした。
Mobile Edge General Intelligence (MEGI)は、リアルタイムでプライバシ保護の推論をネットワークエッジにもたらす。
本稿では,MEGIにおけるLLM推論の効率的な展開のための共同最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:53:48Z) - AIM-Bench: Evaluating Decision-making Biases of Agentic LLM as Inventory Manager [9.21215885702746]
AIM-Benchは、不確実なサプライチェーン管理シナリオにおいて、大規模言語モデル(LLM)の意思決定行動を評価するために設計された新しいベンチマークである。
以上の結果から, LLMは人体とよく似た, 決定バイアスの度合いが異なることが明らかとなった。
論文 参考訳(メタデータ) (2025-08-15T11:38:19Z) - LUCIFER: Language Understanding and Context-Infused Framework for Exploration and Behavior Refinement [5.522800137785975]
動的環境において、既存の環境知識の急速な陳腐化は、エージェントの内部モデルと運用コンテキストの間にギャップを生じさせる。
本稿では、階層的な意思決定アーキテクチャと強化学習を統合したドメインに依存しないフレームワークLUCIFERを提案する。
LUCIFERは探索効率と意思決定品質を向上し、平坦で目標条件の政策よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-06-09T16:30:05Z) - A Trustworthy Multi-LLM Network: Challenges,Solutions, and A Use Case [59.58213261128626]
複数の大規模言語モデル(LLM)を信頼性のあるマルチLLMネットワーク(MultiLLMN)に接続するブロックチェーン対応協調フレームワークを提案する。
このアーキテクチャは、複雑なネットワーク最適化問題に対する最も信頼性が高く高品質な応答の協調評価と選択を可能にする。
論文 参考訳(メタデータ) (2025-05-06T05:32:46Z) - Can LLMs Hack Enterprise Networks? Autonomous Assumed Breach Penetration-Testing Active Directory Networks [1.3124479769761592]
本稿では,Large Language Model (LLM) 駆動自律システムを用いた新しいプロトタイプを提案する。
我々のシステムは、完全に自律的でLLM駆動のフレームワークがアカウントを妥協できる最初の実演である。
関連するコストは、プロフェッショナルな人間のペンテスト担当者によって引き起こされるコストと競合し、しばしばかなり低いことが分かりました。
論文 参考訳(メタデータ) (2025-02-06T17:12:43Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - Preemptive Detection and Correction of Misaligned Actions in LLM Agents [58.39520480675366]
InferActは、実行前に不整合アクションを検出する新しいアプローチである。
タイムリーな修正をユーザーに警告し、有害な結果を防ぐ。
InferActは、ミスアライメントされたアクション検出におけるベースラインに対するMarco-F1の最大20%の改善を実現している。
論文 参考訳(メタデータ) (2024-07-16T15:24:44Z) - Ollabench: Evaluating LLMs' Reasoning for Human-centric Interdependent Cybersecurity [0.0]
大規模言語モデル(LLM)は、複雑な相互依存型サイバーセキュリティシステムを表現することによってエージェントベースモデリングを強化する可能性がある。
既存の評価フレームワークは、しばしば、相互依存型サイバーセキュリティに不可欠なヒューマンファクターと認知コンピューティング能力を見落としている。
シナリオベースの情報セキュリティコンプライアンスや非コンプライアンス問題に答える上で,LLMの正確性,無駄性,一貫性を評価する新しい評価フレームワークであるOllaBenchを提案する。
論文 参考訳(メタデータ) (2024-06-11T00:35:39Z) - Cooperate or Collapse: Emergence of Sustainable Cooperation in a Society of LLM Agents [101.17919953243107]
GovSimは、大規模言語モデル(LLM)における戦略的相互作用と協調的意思決定を研究するために設計された生成シミュレーションプラットフォームである。
最強のLSMエージェントを除く全てのエージェントは、GovSimの持続的均衡を達成することができず、生存率は54%以下である。
道徳的思考の理論である「大学化」に基づく推論を活用するエージェントは、持続可能性を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-04-25T15:59:16Z) - AgentBench: Evaluating LLMs as Agents [99.12825098528212]
エージェントとしてのLarge Language Model (LLM)は近年広く認知されている。
我々は,LLM-as-Agentの推論と意思決定能力を評価するために,8つの異なる環境からなるベンチマークであるAgentBenchを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。