論文の概要: Can Machine Learning Agents Deal with Hard Choices?
- arxiv url: http://arxiv.org/abs/2504.15304v1
- Date: Fri, 18 Apr 2025 14:38:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-01 02:19:28.543598
- Title: Can Machine Learning Agents Deal with Hard Choices?
- Title(参考訳): 機械学習エージェントは難しい選択ができるか?
- Authors: Kangyu Wang,
- Abstract要約: 機械学習エージェントは、選択する際の複数の目標のバランスをとる。
人間のエージェントは、しばしば難しい選択に遭遇する。
現在のMLエージェントは、MOOメソッドの基本的な制限のため、難しい選択を識別することはできない。
MLエージェントは、自律的に目標を変更することができないため、熟考を通じて難しい選択を解決することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine Learning ML agents have been increasingly used in decision-making across a wide range of tasks and environments. These ML agents are typically designed to balance multiple objectives when making choices. Understanding how their decision-making processes align with or diverge from human reasoning is essential. Human agents often encounter hard choices, that is, situations where options are incommensurable; neither option is preferred, yet the agent is not indifferent between them. In such cases, human agents can identify hard choices and resolve them through deliberation. In contrast, current ML agents, due to fundamental limitations in Multi-Objective Optimisation or MOO methods, cannot identify hard choices, let alone resolve them. Neither Scalarised Optimisation nor Pareto Optimisation, the two principal MOO approaches, can capture incommensurability. This limitation generates three distinct alignment problems: the alienness of ML decision-making behaviour from a human perspective; the unreliability of preference-based alignment strategies for hard choices; and the blockage of alignment strategies pursuing multiple objectives. Evaluating two potential technical solutions, I recommend an ensemble solution that appears most promising for enabling ML agents to identify hard choices and mitigate alignment problems. However, no known technique allows ML agents to resolve hard choices through deliberation, as they cannot autonomously change their goals. This underscores the distinctiveness of human agency and urges ML researchers to reconceptualise machine autonomy and develop frameworks and methods that can better address this fundamental gap.
- Abstract(参考訳): 機械学習MLエージェントは、幅広いタスクや環境における意思決定にますます使われています。
これらのMLエージェントは、選択する際の複数の目的のバランスをとるように設計されている。
意思決定プロセスが人間の推論とどのように一致しているかを理解することが不可欠です。
人間のエージェントは、しばしば難しい選択に遭遇する。すなわち、選択肢が満足できない状況であり、どちらの選択肢も好ましくないが、エージェントはそれらの間に無関心ではない。
このような場合、人間のエージェントは難しい選択を識別し、熟考を通じて解決することができる。
対照的に、現在のMLエージェントは、Multi-Objective Optimisation(MOO)メソッドの基本的な制限のため、難しい選択を特定できない。
2つの主要なMOOアプローチであるScalarised OptimisationもPareto Optimisationも、非推奨性を捉えることはできない。
この制限は、3つの異なるアライメント問題を生成する: 人間の視点によるML決定行動の異性、ハードな選択に対する好みに基づくアライメント戦略の信頼性の欠如、複数の目的を追求するアライメント戦略のブロック。
2つの潜在的な技術的ソリューションを評価するため、私は、MLエージェントが難しい選択を識別し、アライメント問題を緩和できるように、最も有望なアンサンブルソリューションを推奨します。
しかしながら、MLエージェントが目標を自律的に変更できないため、熟考を通じて難しい選択を解決できる技術はない。
機械学習の研究者は機械学習の自律性を再認識し、この根本的なギャップに対処できるフレームワークや方法を開発するよう促している。
関連論文リスト
- PMAT: Optimizing Action Generation Order in Multi-Agent Reinforcement Learning [16.523999372817435]
AGPS(Action Generation with Plackett-Luce Sampling)はエージェント決定順序最適化のための新しいメカニズムである。
本稿では,決定順序を最適化した逐次意思決定型MARLアルゴリズムである優先多重エージェント変換器(PMAT)を提案する。
StarCraft II Multi-Agent Challenge、Google Research Football、Multi-Agent MuJoCoといったベンチマークの実験では、PMATが最先端のアルゴリズムより優れていることが示されている。
論文 参考訳(メタデータ) (2025-02-23T08:30:14Z) - Pareto Optimal Algorithmic Recourse in Multi-cost Function [0.44938884406455726]
アルゴリズム的リコースは、個々の特徴を変更するために最小限のコストのアクションを識別することを目的としており、それによって望ましい結果が得られる。
現在のリコース機構のほとんどは、コスト関数が微分可能であると仮定する勾配に基づく手法を使用しており、現実のシナリオでは適用できないことが多い。
本研究では,非微分可能かつ離散的多コスト関数を扱うアルゴリズム的リコースフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-11T03:16:08Z) - LLM Reasoner and Automated Planner: A new NPC approach [0.0]
大規模言語モデル(LLM)は通常、与えられた問題に対して可塑性で人間的な応答を提供する。
意思決定のためのLCMと古典的な自動プランナーを統合する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-01-17T10:47:11Z) - Learning Multiple Initial Solutions to Optimization Problems [52.9380464408756]
厳密なランタイム制約の下で、同様の最適化問題を順次解決することは、多くのアプリケーションにとって不可欠である。
本稿では,問題インスタンスを定義するパラメータが与えられた初期解を多種多様に予測する学習を提案する。
提案手法は,すべての評価設定において有意かつ一貫した改善を実現し,必要な初期解の数に応じて効率よくスケールできることを実証した。
論文 参考訳(メタデータ) (2024-11-04T15:17:19Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - Metareasoning in uncertain environments: a meta-BAMDP framework [1.0923877073891441]
正しい$P$を見つけることは、推論プロセスの空間上の最適化問題として表すことができる。
本稿では,未知の報酬/遷移分布を持つ環境におけるメタ推論を扱うメタベイズ適応型MDPフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T13:15:01Z) - A revision on Multi-Criteria Decision Making methods for Multi-UAV
Mission Planning Support [4.198865250277024]
無人航空機(UAV)は多くの商業用途で広く使用されている。
検討されている主な問題のひとつは、複数のUAVのためのミッションプランニングである。
決定支援システム (DSS) は最適解の順序付けと削減を目的として設計されている。
論文 参考訳(メタデータ) (2024-02-28T22:54:08Z) - Scalable Mechanism Design for Multi-Agent Path Finding [87.40027406028425]
MAPF (Multi-Agent Path Finding) は、複数のエージェントが同時に移動し、与えられた目標地点に向かって共有領域を通って衝突しない経路を決定する。
最適解を見つけることは、しばしば計算不可能であり、近似的な準最適アルゴリズムを用いることが不可欠である。
本稿では、MAPFのスケーラブルな機構設計の問題を紹介し、MAPFアルゴリズムを近似した3つの戦略防御機構を提案する。
論文 参考訳(メタデータ) (2024-01-30T14:26:04Z) - MacGyver: Are Large Language Models Creative Problem Solvers? [87.70522322728581]
本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。
我々は1,600以上の実世界の問題からなる自動生成データセットであるMACGYVERを作成する。
我々はLLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。
論文 参考訳(メタデータ) (2023-11-16T08:52:27Z) - Optimization's Neglected Normative Commitments [3.3388234549922027]
潜在的に高い意思決定にアプローチするために使用されるパラダイムは、現実世界を決定(s)、目的(s)、制約(s)の集合に抽象化することに依存している。
本稿では,最適化に必須の規範的選択と仮定について述べる。
その後、無視される可能性のある6つの緊急問題を特定する。
論文 参考訳(メタデータ) (2023-05-27T12:43:15Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - The Paradox of Choice: Using Attention in Hierarchical Reinforcement
Learning [59.777127897688594]
サブゴールオプションのさらなる学習に使用できる、オンラインでモデルフリーなアルゴリズムを提案する。
訓練データ収集におけるハード・ソフト・アテンションの役割,長期的タスクにおける抽象的価値学習,および多数の選択肢に対する対処について検討する。
論文 参考訳(メタデータ) (2022-01-24T13:18:02Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。