論文の概要: Towards Ethical Multi-Agent Systems of Large Language Models: A Mechanistic Interpretability Perspective
- arxiv url: http://arxiv.org/abs/2512.04691v1
- Date: Thu, 04 Dec 2025 11:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.135272
- Title: Towards Ethical Multi-Agent Systems of Large Language Models: A Mechanistic Interpretability Perspective
- Title(参考訳): 大規模言語モデルの倫理的マルチエージェントシステムに向けて:機械論的解釈可能性の観点から
- Authors: Jae Hee Lee, Anne Lauscher, Stefano V. Albrecht,
- Abstract要約: 大規模言語モデル(LLM)は様々なアプリケーションに広くデプロイされており、しばしばマルチエージェントシステムで相互に対話する自律エージェントとして機能している。
本稿では,機械的解釈可能性の観点から,MALMの倫理的行動を保証するための研究課題を概説する。
- 参考スコア(独自算出の注目度): 33.482090931732735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have been widely deployed in various applications, often functioning as autonomous agents that interact with each other in multi-agent systems. While these systems have shown promise in enhancing capabilities and enabling complex tasks, they also pose significant ethical challenges. This position paper outlines a research agenda aimed at ensuring the ethical behavior of multi-agent systems of LLMs (MALMs) from the perspective of mechanistic interpretability. We identify three key research challenges: (i) developing comprehensive evaluation frameworks to assess ethical behavior at individual, interactional, and systemic levels; (ii) elucidating the internal mechanisms that give rise to emergent behaviors through mechanistic interpretability; and (iii) implementing targeted parameter-efficient alignment techniques to steer MALMs towards ethical behaviors without compromising their performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なアプリケーションに広くデプロイされており、しばしばマルチエージェントシステムで相互に対話する自律エージェントとして機能している。
これらのシステムは、能力の向上と複雑なタスクの実現を約束する一方で、重大な倫理的課題も生じている。
本稿では, 機械的解釈性の観点から, マルチエージェントシステム(MALM)の倫理的行動を保証するための研究課題を概説する。
私たちは3つの重要な研究課題を特定します。
一 個人、相互作用及び体系レベルでの倫理的行動を評価するための総合的な評価枠組みの開発
二 機械的解釈性により創発的行動を引き起こす内部機構の解明
三 目標パラメータ係数アライメント手法を実装し、その性能を損なうことなく、倫理的行動に向けてMALMを操る。
関連論文リスト
- SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - PerspAct: Enhancing LLM Situated Collaboration Skills through Perspective Taking and Active Vision [2.32300953742759]
本研究では、ReActフレームワークを用いた多様な視点を明示的に取り入れることで、LLMが他のエージェントの要求を理解し、理解する能力を高めることができるかどうかを評価する。
視線撮影の複雑さを増大させる7つのシナリオからなる、アクティブな視覚探索を紹介します。
提案手法は, 探索戦略と組み合わせることで, モデルの解釈精度と協調的有効性を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-11-11T10:54:15Z) - WebDevJudge: Evaluating (M)LLMs as Critiques for Web Development Quality [62.43165871914528]
我々は、Web開発におけるLCM-as-a-judgeのパフォーマンスを評価するための体系的なベンチマークであるWebDevJudgeを紹介する。
WebDevJudgeは、構造化およびクエリグラウンドのルーリックで注釈付けされた、ペア化されたWeb実装よりも人間の好みラベルで構成されている。
詳細な分析によると、このギャップは、機能的同値性認識の失敗、タスク実現可能性の検証、バイアス軽減など、基本的なモデル上の制限に由来する。
論文 参考訳(メタデータ) (2025-10-21T12:16:04Z) - A Survey on Agentic Multimodal Large Language Models [84.18778056010629]
エージェントマルチモーダル大言語モデル(Agentic MLLMs)に関する総合的な調査を行う。
我々は,エージェントMLLMの新たなパラダイムを探求し,その概念的基盤を明確にし,従来のMLLMエージェントとの特徴を区別する。
コミュニティのためのこの分野の研究をさらに加速するため、エージェントMLLMを開発するためのオープンソースのトレーニングフレームワーク、トレーニングおよび評価データセットをコンパイルする。
論文 参考訳(メタデータ) (2025-10-13T04:07:01Z) - Fundamentals of Building Autonomous LLM Agents [64.39018305018904]
本稿では,大規模言語モデル(LLM)を用いたエージェントのアーキテクチャと実装手法について概説する。
この研究は、複雑なタスクを自動化し、人間の能力でパフォーマンスのギャップを埋めることのできる「アジェンティック」なLLMを開発するためのパターンを探求することを目的としている。
論文 参考訳(メタデータ) (2025-10-10T10:32:39Z) - MAFE: Multi-Agent Fair Environments for Decision-Making Systems [30.91792275900066]
我々は、マルチエージェントフェア環境(MAFE)の概念を導入し、異なる社会システムをモデル化する3つのMAFEを提示、分析する。
実験の結果,MAFEをマルチエージェントフェアアルゴリズム開発のためのテストベッドとしての有用性が示された。
論文 参考訳(メタデータ) (2025-02-25T04:03:50Z) - Reflection-Bench: Evaluating Epistemic Agency in Large Language Models [10.801745760525838]
疫学エージェンシーは動的環境に関する信念を柔軟に構築し、適応し、監視する能力である。
リフレクション・ベンチ(Reflection-Bench)は,データ漏洩の長期的関連性と最小化を伴う7つのタスクからなるベンチマークである。
本研究は, コア認知機能の向上, クロスファンクショナルコーディネートの改善, 適応処理機構の開発など, 有望な研究の方向性を示唆する。
論文 参考訳(メタデータ) (2024-10-21T17:59:50Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。