論文の概要: Using reinforcement learning to autonomously identify sources of error
for agents in group missions
- arxiv url: http://arxiv.org/abs/2107.09232v4
- Date: Sat, 4 Nov 2023 18:11:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 02:16:21.124427
- Title: Using reinforcement learning to autonomously identify sources of error
for agents in group missions
- Title(参考訳): 強化学習を用いたグループミッションにおけるエージェントのエラー源の自動同定
- Authors: Keishu Utimula, Ken-taro Hayaschi, Trevor J. Bihl, Kenta Hongo, Ryo
Maezono
- Abstract要約: 我々は、人工知能が、その原因を前述のように特定するためのアクションプランを自律的に作成できるかどうかについて考察する。
そこで我々は,Qテーブル強化学習を用いた行動計画を立てた。
驚くべきことに、強化学習によって生成された最適なアクションプランは、問題を特定するための人間的なソリューションを示しました。
- 参考スコア(独自算出の注目度): 0.22499166814992436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When agents swarm to execute a mission, some of them frequently exhibit
sudden failure, as observed from the command base. It is generally difficult to
determine whether a failure is caused by actuators (hypothesis, $h_a$) or
sensors (hypothesis, $h_s$) by solely relying on the communication between the
command base and concerning agent. However, by instigating collusion between
the agents, the cause of failure can be identified; in other words, we expect
to detect corresponding displacements for $h_a$ but not for $h_s$. In this
study, we considered the question as to whether artificial intelligence can
autonomously generate an action plan $\boldsymbol{g}$ to pinpoint the cause as
aforedescribed. Because the expected response to $\boldsymbol{g}$ generally
depends upon the adopted hypothesis [let the difference be denoted by
$D(\boldsymbol{g})$], a formulation that uses $D\left(\boldsymbol{g}\right)$ to
pinpoint the cause can be made. Although a $\boldsymbol{g}^*$ that maximizes
$D(\boldsymbol{g})$ would be a suitable action plan for this task, such an
optimization is difficult to achieve using the conventional gradient method, as
$D(\boldsymbol{g})$ becomes nonzero in rare events such as collisions with
other agents, and most swarm actions $\boldsymbol{g}$ give
$D(\boldsymbol{g})=0$. In other words, throughout almost the entire space of
$\boldsymbol{g}$, $D(\boldsymbol{g})$ has zero gradient, and the gradient
method is not applicable. To overcome this problem, we formulated an action
plan using Q-table reinforcement learning. Surprisingly, the optimal action
plan generated via reinforcement learning presented a human-like solution to
pinpoint the problem by colliding other agents with the failed agent. Using
this simple prototype, we demonstrated the potential of applying Q-table
reinforcement learning methods to plan autonomous actions to pinpoint the
causes of failure.
- Abstract(参考訳): エージェントが任務を実行するために群がると、いくつかのエージェントは、コマンドベースから観察されるように、しばしば突然の失敗を示す。
一般に、コマンドベースとエージェント間の通信のみに依存することで、アクチュエータ(h_a$)やセンサ(h_s$)によって障害が発生するかどうかを判断するのは困難である。
言い換えると、我々は対応する変位を$h_a$ で検出するが、$h_s$ では検出しない。
本研究では,人工知能が自律的に行動計画「\boldsymbol{g}$」を作成できるかどうかについて考察した。
一般的に、$\boldsymbol{g}$に対する期待された応答は、採用されている仮説に依るので、その違いは $d(\boldsymbol{g})$] で示され、$d\left(\boldsymbol{g}\right)$ を使用して原因を特定できる。
例えば、$d(\boldsymbol{g})$を最大化する$\boldsymbol{g}^*$は、このタスクに適したアクションプランであるが、$d(\boldsymbol{g})$は、他のエージェントとの衝突のような稀なイベントにおいて非ゼロとなり、ほとんどのスウォームアクション$\boldsymbol{g}$は$d(\boldsymbol{g})=0$となるため、従来の勾配法を用いて達成することは困難である。
言い換えると、$\boldsymbol{g}$, $d(\boldsymbol{g})$ の空間のほとんど全体が勾配がゼロであり、勾配法は適用されない。
そこで我々は,Qテーブル強化学習を用いた行動計画を立てた。
意外なことに、強化学習によって生成された最適なアクションプランは、他のエージェントと失敗したエージェントを連携させることで問題を特定するための人間的なソリューションを示しました。
この簡単なプロトタイプを用いて,障害原因を特定できる自律的行動計画にqテーブル強化学習手法を適用する可能性を実証した。
関連論文リスト
- IT$^3$: Idempotent Test-Time Training [95.78053599609044]
本稿では,分散シフトの課題に対処する新しいアプローチであるIdempotent Test-Time Training (IT$3$)を紹介する。
IT$3$は、イデオロジェンスの普遍性に基づいている。
画像分類の劣化など,様々なタスクにまたがるアプローチの汎用性を実証する。
論文 参考訳(メタデータ) (2024-10-05T15:39:51Z) - Any Target Can be Offense: Adversarial Example Generation via Generalized Latent Infection [83.72430401516674]
GAKerは任意のターゲットクラスに対して逆例を構築することができる。
本手法は,未知のクラスに対する攻撃成功率を約14.13%で達成する。
論文 参考訳(メタデータ) (2024-07-17T03:24:09Z) - The Selective G-Bispectrum and its Inversion: Applications to G-Invariant Networks [3.8311785959108637]
我々は,$G$-Bispectrumをテキスト選択型$G$-Bispectrumに還元できることを示す。
ニューラルネットワークへの統合によって、従来のアプローチと比較して精度と堅牢性が向上することを示す。
論文 参考訳(メタデータ) (2024-07-10T13:35:04Z) - SynGhost: Imperceptible and Universal Task-agnostic Backdoor Attack in Pre-trained Language Models [15.59613994912779]
事前学習は、下流タスクにおいて顕著なパフォーマンスを達成するために、事前訓練された言語モデル(PLM)をデプロイするために必要なフェーズであった。
バックドア攻撃は,タスク非依存のエントリポイントとして,そのようなフェーズを悪用することを示す。
PLMの非知覚的かつ普遍的なタスクに依存しないバックドア攻撃である$mathttSynGhost$を提示する。
論文 参考訳(メタデータ) (2024-02-29T08:20:49Z) - Federated Learning in the Presence of Adversarial Client Unavailability [16.201377650598516]
フェデレートラーニング(Federated Learning)は、生データを公開せずにコラボレーティブモデルを可能にする、分散機械学習フレームワークである。
多様なハードウェアソフトウェアに制限があるため、クライアントはサーバからの計算要求に対して常に利用できるとは限らない。
戦場のような厳しい環境では、敵は特定のクライアントを選択的に黙らせることができる。
論文 参考訳(メタデータ) (2023-05-31T15:57:07Z) - The Sample Complexity of Online Contract Design [120.9833763323407]
オンライン環境での隠れアクションの主エージェント問題について検討する。
各ラウンドにおいて、主席は、各結果に基づいてエージェントへの支払いを指定する契約を投稿する。
エージェントは、自身のユーティリティを最大化する戦略的な行動選択を行うが、プリンシパルによって直接観察できない。
論文 参考訳(メタデータ) (2022-11-10T17:59:42Z) - Approximate Function Evaluation via Multi-Armed Bandits [51.146684847667125]
既知の滑らかな関数 $f$ の値を未知の点 $boldsymbolmu in mathbbRn$ で推定する問題について検討する。
我々は、各座標の重要性に応じてサンプルを学習するインスタンス適応アルゴリズムを設計し、少なくとも1-delta$の確率で$epsilon$の正確な推定値である$f(boldsymbolmu)$を返す。
論文 参考訳(メタデータ) (2022-03-18T18:50:52Z) - Fast Gradient Non-sign Methods [67.56549792690706]
Fast Gradient Non-sign Method (FGNM) は一般的なルーチンであり、グラデーションベースの攻撃において従来の$sign$操作をシームレスに置き換えることができる。
我々の手法は、textbf27.5% と textbf9.5% でそれらを上回ります。
論文 参考訳(メタデータ) (2021-10-25T08:46:00Z) - What Happens after SGD Reaches Zero Loss? --A Mathematical Framework [35.31946061894308]
SGD(Gradient Descent)の暗黙のバイアスを理解することは、ディープラーニングにおける重要な課題の1つである。
本稿では、Katzenberger (1991) のアイデアを適応させることにより、そのような分析の一般的な枠組みを提供する。
1) a global analysis of the implicit bias for $eta-2$ steps, not to the local analysis of Blanc et al. (2020) that is only for $eta-1.6$ steps and (2) allowing any noise covariance。
論文 参考訳(メタデータ) (2021-10-13T17:50:46Z) - Learning to extrapolate using continued fractions: Predicting the
critical temperature of superconductor materials [5.905364646955811]
人工知能(AI)と機械学習(ML)の分野では、未知のターゲット関数 $y=f(mathbfx)$ の近似が共通の目的である。
トレーニングセットとして$S$を参照し、新しいインスタンス$mathbfx$に対して、このターゲット関数を効果的に近似できる低複雑さの数学的モデルを特定することを目的としている。
論文 参考訳(メタデータ) (2020-11-27T04:57:40Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。