論文の概要: Position: Stop Acting Like Language Model Agents Are Normal Agents
- arxiv url: http://arxiv.org/abs/2502.10420v1
- Date: Tue, 04 Feb 2025 08:14:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-23 06:00:26.81941
- Title: Position: Stop Acting Like Language Model Agents Are Normal Agents
- Title(参考訳): ポジション: 言語モデルエージェントのように働くのをやめるのは、普通のエージェントである
- Authors: Elija Perrier, Michael Timothy Bennett,
- Abstract要約: 言語モデルエージェント(LMA)は、人間やツールとの対話を自律的に行う能力として扱われる。
しかし、LMAは通常のエージェントではない。LMAは、構築される大きな言語モデル(LLM)の構造上の問題を継承する。
LMAは通常のエージェントとして扱われるべきではない、と我々は主張する。
- 参考スコア(独自算出の注目度): 0.5524804393257919
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language Model Agents (LMAs) are increasingly treated as capable of autonomously navigating interactions with humans and tools. Their design and deployment tends to presume they are normal agents capable of sustaining coherent goals, adapting across contexts and acting with a measure of intentionality. These assumptions are critical to prospective use cases in industrial, social and governmental settings. But LMAs are not normal agents. They inherit the structural problems of the large language models (LLMs) around which they are built: hallucinations, jailbreaking, misalignment and unpredictability. In this Position paper we argue LMAs should not be treated as normal agents, because doing so leads to problems that undermine their utility and trustworthiness. We enumerate pathologies of agency intrinsic to LMAs. Despite scaffolding such as external memory and tools, they remain ontologically stateless, stochastic, semantically sensitive, and linguistically intermediated. These pathologies destabilise the ontological properties of LMAs including identifiability, continuity, persistence and and consistency, problematising their claim to agency. In response, we argue LMA ontological properties should be measured before, during and after deployment so that the negative effects of pathologies can be mitigated.
- Abstract(参考訳): 言語モデルエージェント(LMA)は、人間やツールとの対話を自律的に行う能力として扱われる。
彼らの設計と展開は、コヒーレントな目標を維持でき、コンテキストを越えて適応し、意図の尺度で行動できる通常のエージェントであると仮定する傾向がある。
これらの仮定は、産業、社会、政府の状況における将来的なユースケースにとって重要である。
しかし、LMAは通常のエージェントではない。
それらは、幻覚、ジェイルブレイク、ミスアライメント、予測不能といった、構築されている大きな言語モデル(LLM)の構造上の問題を継承する。
このポジションペーパーでは、LMAは通常のエージェントとして扱われるべきではない、なぜなら、それらの実用性と信頼性を損なう問題を引き起こすからだ、と論じている。
LMAに内在するエージェンシーの病態を列挙する。
外部記憶やツールのような足場は存在論的にステートレスであり、確率的であり、意味的に敏感であり、言語的に中間的である。
これらの病理は、識別可能性、連続性、持続性と一貫性を含むLMAのオントロジ的特性を不安定化し、それらがエージェンシーに主張する問題を提起する。
以上の結果から,LMAのオントロジ特性は,展開前後で測定されるべきであり,病態のネガティブな影響を軽減できると考えられる。
関連論文リスト
- MIRAGE-Bench: LLM Agent is Hallucinating and Where to Find Them [52.764019220214344]
幻覚は、大きな言語モデル(LLM)ベースのエージェントに重大なリスクをもたらす。
MIRAGE-Benchは対話型環境における幻覚の抽出と評価のための最初の統一ベンチマークである。
論文 参考訳(メタデータ) (2025-07-28T17:38:29Z) - Agent Identity Evals: Measuring Agentic Identity [0.5524804393257919]
我々は,LMAシステムがエージェントアイデンティティを時間とともに保持する程度を測定するための,厳密で統計的に駆動された実証的なフレームワークであるテクスタイジェント・アイデンティティ・エバルス(AIE)を紹介した。
AIEは、最適なLMAインフラストラクチャの設計を支援するために、他のパフォーマンス、能力、エージェントの指標と統合できる新しいメトリクスのセットで構成されている。
論文 参考訳(メタデータ) (2025-07-23T06:56:15Z) - AgentMisalignment: Measuring the Propensity for Misaligned Behaviour in LLM-Based Agents [0.0]
本稿では,現実的なシナリオの集合からなる不整合性評価ベンチマークであるAgentMisalignmentを紹介する。
評価を,ゴールガード,シャットダウン抵抗,サンドバッグ,パワーセーキングなど,不整合行動のサブカテゴリに整理する。
本ベンチマークでは,より有能なモデルを評価する際に,平均的な不一致を観測し,フロンティアモデルの性能を報告する。
論文 参考訳(メタデータ) (2025-06-04T14:46:47Z) - Why do AI agents communicate in human language? [6.784986834853486]
大規模言語モデル(LLM)は、現代のAIエージェントシステムの基礎となっている。
ほとんどの既存のシステムでは、エージェント間通信は主に自然言語に依存している。
この設計はエージェントとエージェントの協調に基本的な制限をもたらすと我々は主張する。
論文 参考訳(メタデータ) (2025-06-03T10:53:29Z) - Toward a Theory of Agents as Tool-Use Decision-Makers [89.26889709510242]
真の自律性は、エージェントが、彼らが知っていること、必要なこと、そしてその知識を効率的に獲得する方法を統治する、一貫性のある疫学の枠組みに根ざす必要がある、と我々は主張する。
本研究では,内的推論と外的行動を等価な疫学ツールとして扱う統一理論を提案し,エージェントが内観と相互作用を体系的に調整することを可能にする。
この視点は、エージェントの設計を単なるアクションエグゼクタから知識駆動インテリジェンスシステムにシフトさせ、適応的で効率的でゴール指向の行動が可能な基礎エージェントを構築するための原則化された道筋を提供する。
論文 参考訳(メタデータ) (2025-06-01T07:52:16Z) - AgentRefine: Enhancing Agent Generalization through Refinement Tuning [28.24897427451803]
LLM(Large Language Model)ベースのエージェントは、人間のような複雑なタスクを実行する能力を示した。
オープンソースLLMとGPTシリーズのような商用モデルの間にはまだ大きなギャップがある。
本稿では,命令チューニングによるLLMのエージェント一般化機能の改善に焦点をあてる。
論文 参考訳(メタデータ) (2025-01-03T08:55:19Z) - AgentOps: Enabling Observability of LLM Agents [12.49728300301026]
大規模言語モデル(LLM)エージェントは、自律的で非決定論的行動のため、AI安全性に重大な懸念を提起する。
本稿では,エージェントのライフサイクル全体を通じて追跡されるべきアーティファクトと関連するデータを特定し,効果的な観測可能性を実現するための,AgentOpsの包括的な分類法を提案する。
私たちの分類は、監視、ロギング、分析をサポートするAgentOpsインフラストラクチャを設計、実装するためのリファレンステンプレートとして機能します。
論文 参考訳(メタデータ) (2024-11-08T02:31:03Z) - Artificial Agency and Large Language Models [0.0]
大規模言語モデル(LLM)は、人工的にエージェンシーを実現する可能性について哲学的な議論を巻き起こしている。
人工エージェントのしきい値概念として使用できる理論モデルを提案する。
論文 参考訳(メタデータ) (2024-07-23T05:32:00Z) - Transforming Agency. On the mode of existence of Large Language Models [0.0]
本稿では,ChatGPTのような大規模言語モデル(LLM)のオントロジ的特徴について検討する。
また,ChatGPTは,言語オートマトンやインターロケータ,言語オートマトンとして特徴付けられるべきだと論じる。
論文 参考訳(メタデータ) (2024-07-15T14:01:35Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation [46.42384207122049]
我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。
SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
論文 参考訳(メタデータ) (2023-12-28T16:51:11Z) - Rethinking Large Language Models in Mental Health Applications [42.21805311812548]
大規模言語モデル(LLM)は、メンタルヘルスにおいて貴重な資産となっている。
本稿では,精神保健分野におけるLSMの利用について考察する。
論文 参考訳(メタデータ) (2023-11-19T08:40:01Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z) - On the Use and Misuse of Absorbing States in Multi-agent Reinforcement
Learning [55.95253619768565]
現在のMARLアルゴリズムは、実験を通してグループ内のエージェントの数が固定されていると仮定している。
多くの実践的な問題において、エージェントはチームメイトの前に終了する可能性がある。
本稿では,吸収状態を持つ完全連結層ではなく,注意を用いた既存の最先端MARLアルゴリズムのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-10T23:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。