Fugu-MT 論文翻訳(概要): Using reinforcement learning to autonomously identify sources of error for agents in group missions

論文の概要: Using reinforcement learning to autonomously identify sources of error for agents in group missions

arxiv url: http://arxiv.org/abs/2107.09232v4
Date: Sat, 4 Nov 2023 18:11:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-08 02:16:21.124427
Title: Using reinforcement learning to autonomously identify sources of error for agents in group missions
Title（参考訳）: 強化学習を用いたグループミッションにおけるエージェントのエラー源の自動同定
Authors: Keishu Utimula, Ken-taro Hayaschi, Trevor J. Bihl, Kenta Hongo, Ryo Maezono
Abstract要約: 我々は、人工知能が、その原因を前述のように特定するためのアクションプランを自律的に作成できるかどうかについて考察する。そこで我々は,Qテーブル強化学習を用いた行動計画を立てた。驚くべきことに、強化学習によって生成された最適なアクションプランは、問題を特定するための人間的なソリューションを示しました。
参考スコア（独自算出の注目度）: 0.22499166814992436
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: When agents swarm to execute a mission, some of them frequently exhibit sudden failure, as observed from the command base. It is generally difficult to determine whether a failure is caused by actuators (hypothesis, $h_a$) or sensors (hypothesis, $h_s$) by solely relying on the communication between the command base and concerning agent. However, by instigating collusion between the agents, the cause of failure can be identified; in other words, we expect to detect corresponding displacements for $h_a$ but not for $h_s$. In this study, we considered the question as to whether artificial intelligence can autonomously generate an action plan $\boldsymbol{g}$ to pinpoint the cause as aforedescribed. Because the expected response to $\boldsymbol{g}$ generally depends upon the adopted hypothesis [let the difference be denoted by $D(\boldsymbol{g})$], a formulation that uses $D\left(\boldsymbol{g}\right)$ to pinpoint the cause can be made. Although a $\boldsymbol{g}^*$ that maximizes $D(\boldsymbol{g})$ would be a suitable action plan for this task, such an optimization is difficult to achieve using the conventional gradient method, as $D(\boldsymbol{g})$ becomes nonzero in rare events such as collisions with other agents, and most swarm actions $\boldsymbol{g}$ give $D(\boldsymbol{g})=0$. In other words, throughout almost the entire space of $\boldsymbol{g}$, $D(\boldsymbol{g})$ has zero gradient, and the gradient method is not applicable. To overcome this problem, we formulated an action plan using Q-table reinforcement learning. Surprisingly, the optimal action plan generated via reinforcement learning presented a human-like solution to pinpoint the problem by colliding other agents with the failed agent. Using this simple prototype, we demonstrated the potential of applying Q-table reinforcement learning methods to plan autonomous actions to pinpoint the causes of failure.
Abstract（参考訳）: エージェントが任務を実行するために群がると、いくつかのエージェントは、コマンドベースから観察されるように、しばしば突然の失敗を示す。一般に、コマンドベースとエージェント間の通信のみに依存することで、アクチュエータ(h_a$)やセンサ(h_s$)によって障害が発生するかどうかを判断するのは困難である。言い換えると、我々は対応する変位を$h_a$ で検出するが、$h_s$ では検出しない。本研究では,人工知能が自律的に行動計画「\boldsymbol{g}$」を作成できるかどうかについて考察した。一般的に、$\boldsymbol{g}$に対する期待された応答は、採用されている仮説に依るので、その違いは $d(\boldsymbol{g})$] で示され、$d\left(\boldsymbol{g}\right)$ を使用して原因を特定できる。例えば、$d(\boldsymbol{g})$を最大化する$\boldsymbol{g}^*$は、このタスクに適したアクションプランであるが、$d(\boldsymbol{g})$は、他のエージェントとの衝突のような稀なイベントにおいて非ゼロとなり、ほとんどのスウォームアクション$\boldsymbol{g}$は$d(\boldsymbol{g})=0$となるため、従来の勾配法を用いて達成することは困難である。言い換えると、$\boldsymbol{g}$, $d(\boldsymbol{g})$ の空間のほとんど全体が勾配がゼロであり、勾配法は適用されない。そこで我々は,Qテーブル強化学習を用いた行動計画を立てた。意外なことに、強化学習によって生成された最適なアクションプランは、他のエージェントと失敗したエージェントを連携させることで問題を特定するための人間的なソリューションを示しました。この簡単なプロトタイプを用いて,障害原因を特定できる自律的行動計画にqテーブル強化学習手法を適用する可能性を実証した。

関連論文リスト

Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [55.044159987218436]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。 LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文参考訳（メタデータ） (2025-05-23T08:23:36Z)
FLARE: Robot Learning with Implicit World Modeling [87.81846091038676]
$textbfFLARE$は、予測潜在世界モデリングをロボットポリシー学習に統合する。 $textbfFLARE$は最先端のパフォーマンスを実現し、これまでのポリシー学習のベースラインを最大26%上回っている。この結果は、暗黙の世界モデリングと高周波ロボット制御を組み合わせた汎用的でスケーラブルなアプローチとして$textbfFLARE$を確立した。
論文参考訳（メタデータ） (2025-05-21T15:33:27Z)
Symmetry-Breaking Descent for Invariant Cost Functionals [0.0]
我々は,大域対称性群$GサブセットのMathrmDiff(M)$の下でコストが不変である場合,Sobolev-classシグナル$S$上で定義されるタスクコスト関数$W(S)$の削減問題を考察する。入力信号の明示的対称性を破る変形を構成するために,対称性構造を利用する変分法を提案する。
論文参考訳（メタデータ） (2025-05-19T15:06:31Z)
Cracking the Code of Action: a Generative Approach to Affordances for Reinforcement Learning [33.790048240113165]
本研究では,専門家の行動に限定的あるいは全くアクセスできない低データ体制について考察する。我々は、Generative Affordances$(textbf$textttCoGA$)$として$textbfCodeを提案する。エージェントが考慮しなければならないアクションの数を大幅に削減することで、MiniWob++ベンチマークで幅広いタスクを実演する。
論文参考訳（メタデータ） (2025-04-24T06:20:08Z)
Computational-Statistical Tradeoffs at the Next-Token Prediction Barrier: Autoregressive and Imitation Learning under Misspecification [50.717692060500696]
対数損失を伴う次のトーケン予測は自己回帰シーケンスモデリングの基盤となる。次トーケン予測は、適度な誤差増幅を表す$C=tilde O(H)$を達成するために堅牢にすることができる。 C=e(log H)1-Omega(1)$。
論文参考訳（メタデータ） (2025-02-18T02:52:00Z)
Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency [52.60557300927007]
離散部分モジュラー問題を連続的に最適化するために,$textbfMA-OSMA$アルゴリズムを提案する。また、一様分布を混合することによりKLの発散を効果的に活用する、プロジェクションフリーな$textbfMA-OSEA$アルゴリズムも導入する。我々のアルゴリズムは最先端OSGアルゴリズムによって提供される$(frac11+c)$-approximationを大幅に改善する。
論文参考訳（メタデータ） (2025-02-07T15:57:56Z)
Conditional Mutual Information Based Diffusion Posterior Sampling for Solving Inverse Problems [3.866047645663101]
コンピュータビジョンでは、インペイント、デブロアリング、超解像といったタスクは逆問題として一般的に定式化される。近年, 拡散モデル (DM) が, 雑音の線形逆問題に対処するための有望なアプローチとして出現している。本稿では,逆問題の解法におけるDMの有効性を改善するための情報理論的手法を提案する。
論文参考訳（メタデータ） (2025-01-06T09:45:26Z)
IT$^3$: Idempotent Test-Time Training [95.78053599609044]
本稿では,分散シフトの課題に対処する新しいアプローチであるIdempotent Test-Time Training (IT$3$)を紹介する。 IT$3$は、イデオロジェンスの普遍性に基づいている。画像分類の劣化など,様々なタスクにまたがるアプローチの汎用性を実証する。
論文参考訳（メタデータ） (2024-10-05T15:39:51Z)
Any Target Can be Offense: Adversarial Example Generation via Generalized Latent Infection [83.72430401516674]
GAKerは任意のターゲットクラスに対して逆例を構築することができる。本手法は,未知のクラスに対する攻撃成功率を約14.13%で達成する。
論文参考訳（メタデータ） (2024-07-17T03:24:09Z)
The Selective G-Bispectrum and its Inversion: Applications to G-Invariant Networks [3.8311785959108637]
我々は,$G$-Bispectrumをテキスト選択型$G$-Bispectrumに還元できることを示す。ニューラルネットワークへの統合によって、従来のアプローチと比較して精度と堅牢性が向上することを示す。
論文参考訳（メタデータ） (2024-07-10T13:35:04Z)
SynGhost: Imperceptible and Universal Task-agnostic Backdoor Attack in Pre-trained Language Models [15.59613994912779]
事前学習は、下流タスクにおいて顕著なパフォーマンスを達成するために、事前訓練された言語モデル(PLM)をデプロイするために必要なフェーズであった。バックドア攻撃は,タスク非依存のエントリポイントとして,そのようなフェーズを悪用することを示す。 PLMの非知覚的かつ普遍的なタスクに依存しないバックドア攻撃である$mathttSynGhost$を提示する。
論文参考訳（メタデータ） (2024-02-29T08:20:49Z)
Federated Learning in the Presence of Adversarial Client Unavailability [16.201377650598516]
フェデレートラーニング(Federated Learning)は、生データを公開せずにコラボレーティブモデルを可能にする、分散機械学習フレームワークである。多様なハードウェアソフトウェアに制限があるため、クライアントはサーバからの計算要求に対して常に利用できるとは限らない。戦場のような厳しい環境では、敵は特定のクライアントを選択的に黙らせることができる。
論文参考訳（メタデータ） (2023-05-31T15:57:07Z)
The Sample Complexity of Online Contract Design [120.9833763323407]
オンライン環境での隠れアクションの主エージェント問題について検討する。各ラウンドにおいて、主席は、各結果に基づいてエージェントへの支払いを指定する契約を投稿する。エージェントは、自身のユーティリティを最大化する戦略的な行動選択を行うが、プリンシパルによって直接観察できない。
論文参考訳（メタデータ） (2022-11-10T17:59:42Z)
Approximate Function Evaluation via Multi-Armed Bandits [51.146684847667125]
既知の滑らかな関数 $f$ の値を未知の点 $boldsymbolmu in mathbbRn$ で推定する問題について検討する。我々は、各座標の重要性に応じてサンプルを学習するインスタンス適応アルゴリズムを設計し、少なくとも1-delta$の確率で$epsilon$の正確な推定値である$f(boldsymbolmu)$を返す。
論文参考訳（メタデータ） (2022-03-18T18:50:52Z)
Fast Gradient Non-sign Methods [67.56549792690706]
Fast Gradient Non-sign Method (FGNM) は一般的なルーチンであり、グラデーションベースの攻撃において従来の$sign$操作をシームレスに置き換えることができる。我々の手法は、textbf27.5% と textbf9.5% でそれらを上回ります。
論文参考訳（メタデータ） (2021-10-25T08:46:00Z)
What Happens after SGD Reaches Zero Loss? --A Mathematical Framework [35.31946061894308]
SGD(Gradient Descent)の暗黙のバイアスを理解することは、ディープラーニングにおける重要な課題の1つである。本稿では、Katzenberger (1991) のアイデアを適応させることにより、そのような分析の一般的な枠組みを提供する。 1) a global analysis of the implicit bias for $eta-2$ steps, not to the local analysis of Blanc et al. (2020) that is only for $eta-1.6$ steps and (2) allowing any noise covariance。
論文参考訳（メタデータ） (2021-10-13T17:50:46Z)
Learning to extrapolate using continued fractions: Predicting the critical temperature of superconductor materials [5.905364646955811]
人工知能(AI)と機械学習(ML)の分野では、未知のターゲット関数 $y=f(mathbfx)$ の近似が共通の目的である。トレーニングセットとして$S$を参照し、新しいインスタンス$mathbfx$に対して、このターゲット関数を効果的に近似できる低複雑さの数学的モデルを特定することを目的としている。
論文参考訳（メタデータ） (2020-11-27T04:57:40Z)
Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。 ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。 ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文参考訳（メタデータ） (2020-05-29T07:20:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。