Fugu-MT 論文翻訳(概要): Can We Trust AI Agents? A Case Study of an LLM-Based Multi-Agent System for Ethical AI

論文の概要: Can We Trust AI Agents? A Case Study of an LLM-Based Multi-Agent System for Ethical AI

arxiv url: http://arxiv.org/abs/2411.08881v2
Date: Fri, 16 May 2025 13:05:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-19 14:36:11.575136
Title: Can We Trust AI Agents? A Case Study of an LLM-Based Multi-Agent System for Ethical AI
Title（参考訳）: AIエージェントを信頼できるか? : 倫理的AIのためのLLMベースのマルチエージェントシステムの事例
Authors: José Antonio Siqueira de Cerqueira, Mamia Agbese, Rebekah Rousi, Nannan Xi, Juho Hamari, Pekka Abrahamsson,
Abstract要約: AIベースのシステムは、多様なタスクをサポートすることによって数百万に影響を及ぼすが、誤情報、偏見、誤用といった問題に直面している。本研究では,Large Language Models (LLM) を用いたAI倫理の実践について検討する。エージェントがAIインシデントデータベースから現実のAI倫理問題に関する構造化された議論を行うプロトタイプを設計する。
参考スコア（独自算出の注目度）: 10.084913433923566
License: http://creativecommons.org/licenses/by/4.0/
Abstract: AI-based systems, including Large Language Models (LLM), impact millions by supporting diverse tasks but face issues like misinformation, bias, and misuse. AI ethics is crucial as new technologies and concerns emerge, but objective, practical guidance remains debated. This study examines the use of LLMs for AI ethics in practice, assessing how LLM trustworthiness-enhancing techniques affect software development in this context. Using the Design Science Research (DSR) method, we identify techniques for LLM trustworthiness: multi-agents, distinct roles, structured communication, and multiple rounds of debate. We design a multi-agent prototype LLM-MAS, where agents engage in structured discussions on real-world AI ethics issues from the AI Incident Database. We evaluate the prototype across three case scenarios using thematic analysis, hierarchical clustering, comparative (baseline) studies, and running source code. The system generates approximately 2,000 lines of code per case, compared to only 80 lines in baseline trials. Discussions reveal terms like bias detection, transparency, accountability, user consent, GDPR compliance, fairness evaluation, and EU AI Act compliance, showing this prototype ability to generate extensive source code and documentation addressing often overlooked AI ethics issues. However, practical challenges in source code integration and dependency management may limit its use by practitioners.
Abstract（参考訳）: 大規模言語モデル(LLM)を含むAIベースのシステムは、多様なタスクをサポートすることによって数百万人に影響を与えるが、誤情報、偏見、誤用といった問題に直面している。新たな技術や懸念が出現するにつれ、AI倫理は極めて重要であるが、客観的で実践的なガイダンスについては議論が続いている。本研究は,LLMをAI倫理に用い,LLMの信頼性向上技術がソフトウェア開発にどのように影響するかを評価する。デザインサイエンスリサーチ (DSR) 手法を用いて, 複数エージェント, 異なる役割, 構造的コミュニケーション, 複数ラウンドの議論など, LLM の信頼性向上のための手法を同定する。我々は、エージェントがAIインシデントデータベースから現実のAI倫理問題に関する構造化された議論を行うマルチエージェントプロトタイプLSM-MASを設計する。 Thematic analysis,hierarchical clustering, 比較(ベースライン)研究, ソースコードの実行という3つのケースシナリオでプロトタイプを評価した。このシステムは1ケースあたり約2000行のコードを生成するが、ベースライントライアルでは80行しか生成しない。議論では、バイアス検出、透明性、説明責任、ユーザ同意、GDPR準拠、公正性評価、EU AI Act準拠といった用語が明らかにされており、このプロトタイプでは、しばしば見落とされたAI倫理問題に対処する広範なソースコードとドキュメントを生成する能力を示している。しかし、ソースコード統合と依存性管理における実践的な課題は、実践者による使用を制限する可能性がある。

関連論文リスト

AI-for-Science Low-code Platform with Bayesian Adversarial Multi-Agent Framework [4.782965804438204]
大規模言語モデル(LLM)は、科学的コード生成を自動化する可能性を示しているが、信頼性、エラーの伝播、評価において課題に直面している。我々は,AI for Science(AI4S)タスクを低符号プラットフォーム(LCP)の形で特別に設計したベイズ対向型マルチエージェントフレームワークを提案する。ユーザ入力を実行可能な計画と適応テストケースに構造化するタスクマネージャ、候補ソリューションを生成するコードジェネレータ、包括的なフィードバックを提供する評価器である。
論文参考訳（メタデータ） (2026-03-03T18:25:00Z)
Ethics Readiness of Artificial Intelligence: A Practical Evaluation Method [0.0]
我々は、AIシステムの設計において倫理的反映がどのように実装されているかを追跡する4段階の反復的手法である倫理準備レベル(ERLs)を提示する。 ERLは、倫理的価値を具体的なプロンプト、チェック、そして実際のユースケースにおけるコントロールに変換することで、高いレベルの倫理的原則と日々のエンジニアリングを橋渡しします。
論文参考訳（メタデータ） (2025-12-10T15:10:42Z)
Executable Knowledge Graphs for Replicating AI Research [65.41207324831583]
Executable Knowledge Graphs (xKG) は、科学文献から抽出された技術的洞察、コードスニペット、ドメイン固有の知識を自動的に統合するモジュラーでプラグイン可能な知識基盤である。コードはhttps://github.com/zjunlp/xKGでリリースされる。
論文参考訳（メタデータ） (2025-10-20T17:53:23Z)
Rethinking Technology Stack Selection with AI Coding Proficiency [49.617080246389605]
大規模言語モデル(LLM)は今やソフトウェア開発の不可欠な部分です。我々は、LLMが与えられた技術を用いて高品質なコードスニペットを生成することができる、AI符号化能力という概念を提案する。我々は,170のサードパーティ製ライブラリと61のタスクシナリオを対象とした,AI習熟度に関する初の総合的研究を行った。
論文参考訳（メタデータ） (2025-09-14T06:56:47Z)
Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文参考訳（メタデータ） (2025-08-28T13:00:28Z)
CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文参考訳（メタデータ） (2025-08-28T06:03:11Z)
Introspection of Thought Helps AI Agents [19.04968632268433]
大規模言語モデル(LLM)とマルチモーダルLLM(MLLM)が最も重要な役割を担い、AIエージェントの初期能力と限界を決定する。本稿では,新しいLLM-Read コードを即座に設計することで,思考のイントロスペクション(INoT)を用いたAIエージェント推論フレームワークを提案する。 INoTの有効性は, 平均性能が7.95%向上し, ベースラインを超えることが確認された。
論文参考訳（メタデータ） (2025-07-11T15:03:17Z)
The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文参考訳（メタデータ） (2025-06-09T18:37:14Z)
AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。 AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文参考訳（メタデータ） (2025-05-22T17:31:10Z)
Evolution of AI in Education: Agentic Workflows [2.1681971652284857]
人工知能(AI)は教育の様々な側面を変えてきた。大規模言語モデル(LLM)は、自動学習、アセスメント、コンテンツ生成の進歩を推進している。これらの制限に対処し、より持続可能な技術プラクティスを促進するために、AIエージェントは教育革新のための有望な新しい道として登場した。
論文参考訳（メタデータ） (2025-04-25T13:44:57Z)
Do LLMs trust AI regulation? Emerging behaviour of game-theoretic LLM agents [61.132523071109354]
本稿では、異なる規制シナリオ下での戦略選択をモデル化する、AI開発者、規制当局、ユーザ間の相互作用について検討する。我々の研究は、純粋なゲーム理論エージェントよりも「悲観的」な姿勢を採用する傾向にある戦略的AIエージェントの出現する振る舞いを特定する。
論文参考訳（メタデータ） (2025-04-11T15:41:21Z)
Leveraging LLMs for User Stories in AI Systems: UStAI Dataset [0.38233569758620056]
大きな言語モデル(LLM)は、人間の生成したテキストに代わる有望な代替手段として浮上している。本稿では,学術論文の要約に基づいて,LLMを用いたAIシステムにおけるユーザストーリ生成の可能性について検討する。分析の結果,LLMは様々な利害関係者のニーズに触発されたユーザストーリーを生成できることがわかった。
論文参考訳（メタデータ） (2025-04-01T08:03:40Z)
Media and responsible AI governance: a game-theoretic and LLM analysis [61.132523071109354]
本稿では,信頼できるAIシステムを育成する上での,AI開発者,規制当局,ユーザ,メディア間の相互作用について検討する。進化的ゲーム理論と大言語モデル(LLM)を用いて、異なる規制体制下でこれらのアクター間の戦略的相互作用をモデル化する。
論文参考訳（メタデータ） (2025-03-12T21:39:38Z)
Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。 LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文参考訳（メタデータ） (2024-11-11T10:05:52Z)
Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文参考訳（メタデータ） (2024-10-10T17:38:38Z)
Converging Paradigms: The Synergy of Symbolic and Connectionist AI in LLM-Empowered Autonomous Agents [55.63497537202751]
コネクショニストと象徴的人工知能(AI)の収束を探求する記事従来、コネクショナリストAIはニューラルネットワークにフォーカスし、シンボリックAIはシンボリック表現とロジックを強調していた。大型言語モデル(LLM)の最近の進歩は、人間の言語をシンボルとして扱う際のコネクショナリストアーキテクチャの可能性を強調している。
論文参考訳（メタデータ） (2024-07-11T14:00:53Z)
Towards Trustworthy AI: A Review of Ethical and Robust Large Language Models [1.7466076090043157]
大きな言語モデル(LLM)は多くの分野を変革できるが、その急速な開発は、監視、倫理的創造、ユーザ信頼の構築に重大な課題を生み出している。この総合的なレビューは、意図しない害、透明性の欠如、攻撃に対する脆弱性、人的価値との整合性、環境への影響など、LLMにおける重要な信頼の問題について考察する。これらの課題に対処するため、倫理的監視、業界説明責任、規制、公的な関与を組み合わせることを提案する。
論文参考訳（メタデータ） (2024-06-01T14:47:58Z)
Navigating LLM Ethics: Advancements, Challenges, and Future Directions [5.023563968303034]
本研究では,人工知能分野におけるLarge Language Models(LLM)を取り巻く倫理的問題に対処する。 LLMと他のAIシステムによってもたらされる共通の倫理的課題を探求する。幻覚、検証可能な説明責任、検閲の複雑さの復号化といった課題を強調している。
論文参考訳（メタデータ） (2024-05-14T15:03:05Z)
POLARIS: A framework to guide the development of Trustworthy AI systems [3.02243271391691]
ハイレベルなAI倫理原則と、AI専門家のための低レベルな具体的なプラクティスの間には、大きなギャップがある。我々は、理論と実践のギャップを埋めるために設計された、信頼に値するAIのための新しい総合的なフレームワークを開発する。私たちの目標は、AIプロフェッショナルが信頼できるAIの倫理的側面を確実にナビゲートできるようにすることです。
論文参考訳（メタデータ） (2024-02-08T01:05:16Z)
A Preliminary Study on Using Large Language Models in Software Pentesting [2.0551676463612636]
大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
論文参考訳（メタデータ） (2024-01-30T21:42:59Z)
Investigating Responsible AI for Scientific Research: An Empirical Study [4.597781832707524]
このような機関におけるResponsible AI(RAI)の推進は、AI設計と開発に倫理的配慮を統合することの重要性の高まりを強調している。本稿では,AI設計・開発に内在する倫理的リスクに対する意識と準備性を評価することを目的とする。その結果、倫理的、責任的、包括的AIに関する知識ギャップが明らかとなり、利用可能なAI倫理フレームワークに対する認識が制限された。
論文参考訳（メタデータ） (2023-12-15T06:40:27Z)
Hybrid Approaches for Moral Value Alignment in AI Agents: a Manifesto [3.7414804164475983]
次世代人工知能(AI)システムの安全性確保への関心が高まっているため、自律エージェントに道徳を埋め込む新しいアプローチが求められている。連続体としてモデル化された機械に道徳を導入する問題に対する既存のアプローチの体系化を提供する。我々は、適応可能で堅牢だが制御可能で解釈可能なエージェントシステムを構築するために、よりハイブリッドなソリューションが必要であると論じている。
論文参考訳（メタデータ） (2023-12-04T11:46:34Z)
The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされるまず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文参考訳（メタデータ） (2023-09-14T17:12:03Z)
Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-05-04T17:59:28Z)
Human-Centric Multimodal Machine Learning: Recent Advances and Testbed on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。 i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文参考訳（メタデータ） (2023-02-13T16:44:44Z)
An interdisciplinary conceptual study of Artificial Intelligence (AI) for helping benefit-risk assessment practices: Towards a comprehensive qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文参考訳（メタデータ） (2021-05-07T12:01:31Z)
Multisource AI Scorecard Table for System Evaluation [3.74397577716445]
本稿では、AI/機械学習(ML)システムの開発者およびユーザに対して標準チェックリストを提供するマルチソースAIスコアカードテーブル(MAST)について述べる。本稿では,インテリジェンス・コミュニティ・ディレクティブ(ICD)203で概説されている分析的トレードクラフト標準が,AIシステムの性能を評価するためのフレームワークを提供する方法について考察する。
論文参考訳（メタデータ） (2021-02-08T03:37:40Z)
Trustworthy AI in the Age of Pervasive Computing and Big Data [22.92621391190282]
我々は倫理的観点から信頼に値するAIシステムの要件を定式化する。研究状況と残りの課題について議論した後、スマートシティにおける具体的なユースケースがこれらの方法のメリットを如何に示すかを示す。
論文参考訳（メタデータ） (2020-01-30T08:09:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。