論文の概要: Reinforcement learning autonomously identifying the source of errors for
agents in a group mission
- arxiv url: http://arxiv.org/abs/2107.09232v1
- Date: Tue, 20 Jul 2021 02:40:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 15:06:21.573068
- Title: Reinforcement learning autonomously identifying the source of errors for
agents in a group mission
- Title(参考訳): グループミッションにおけるエージェントのエラー源を自律的に特定する強化学習
- Authors: Keishu Utimula, Ken-taro Hayaschi, Kousuke Nakano, Kenta Hongo, Ryo
Maezono
- Abstract要約: アクチュエータとセンサを区別するために,Swarm戦略を生成する方法を示す。
本研究では,スパース値関数の区別を実現するため,強化学習手法を適用した。
動作によってアクチュエータエラーのあるエージェントが認識されると、エージェントは、与えられたミッションを達成するために、故障しているエージェントを支援したいように振る舞う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When agents are swarmed to carry out a mission, there is often a sudden
failure of some of the agents observed from the command base. It is generally
difficult to distinguish whether the failure is caused by actuators
(hypothesis, $h_a$) or sensors (hypothesis, $h_s$) solely by the communication
between the command base and the concerning agent. By making a collision to the
agent by another, we would be able to distinguish which hypothesis is likely:
For $h_a$, we expect to detect corresponding displacements while for $h_a$ we
do not. Such swarm strategies to grasp the situation are preferably to be
generated autonomously by artificial intelligence (AI). Preferable actions
($e.g.$, the collision) for the distinction would be those maximizing the
difference between the expected behaviors for each hypothesis, as a value
function. Such actions exist, however, only very sparsely in the whole
possibilities, for which the conventional search based on gradient methods does
not make sense. Instead, we have successfully applied the reinforcement
learning technique, achieving the maximization of such a sparse value function.
The machine learning actually concluded autonomously the colliding action to
distinguish the hypothesises. Getting recognized an agent with actuator error
by the action, the agents behave as if other ones want to assist the
malfunctioning one to achieve a given mission.
- Abstract(参考訳): エージェントがミッションを実行するために群がっているとき、しばしばコマンドベースから観察されたエージェントのいくつかが突然失敗する。
一般に、故障はアクチュエータ(h_a$)またはセンサー(h_s$)によって引き起こされるか、コマンドベースと関連するエージェントとの通信のみによって引き起こされるかの区別が困難である。
エージェントを別のエージェントで衝突させることで、どの仮説が想定されるかを区別することができる: $h_a$ の場合、対応する変位を検出できるが、 $h_a$ の場合、そうはならない。
このような状況を把握するための群集戦略は、人工知能(AI)によって自律的に生成されることが好ましい。
区別のための好ましいアクション(例えば、衝突)は、各仮説に対する期待される振る舞いの違いを値関数として最大化するものである。
しかし、そのような行動は全可能性においてごくわずかしか存在せず、従来の勾配法に基づく探索は意味をなさない。
代わりに、そのようなスパース値関数の最大化を達成し、強化学習技術の適用に成功した。
機械学習は、仮説を識別するための衝突行動を自律的に結論づけました。
動作によってアクチュエータエラーのあるエージェントが認識されると、エージェントは、与えられたミッションを達成するために、故障しているエージェントを支援したいように振る舞う。
関連論文リスト
- IT$^3$: Idempotent Test-Time Training [95.78053599609044]
本稿では,分散シフトの課題に対処する新しいアプローチであるIdempotent Test-Time Training (IT$3$)を紹介する。
IT$3$は、イデオロジェンスの普遍性に基づいている。
画像分類の劣化など,様々なタスクにまたがるアプローチの汎用性を実証する。
論文 参考訳(メタデータ) (2024-10-05T15:39:51Z) - Any Target Can be Offense: Adversarial Example Generation via Generalized Latent Infection [83.72430401516674]
GAKerは任意のターゲットクラスに対して逆例を構築することができる。
本手法は,未知のクラスに対する攻撃成功率を約14.13%で達成する。
論文 参考訳(メタデータ) (2024-07-17T03:24:09Z) - The Selective G-Bispectrum and its Inversion: Applications to G-Invariant Networks [3.8311785959108637]
我々は,$G$-Bispectrumをテキスト選択型$G$-Bispectrumに還元できることを示す。
ニューラルネットワークへの統合によって、従来のアプローチと比較して精度と堅牢性が向上することを示す。
論文 参考訳(メタデータ) (2024-07-10T13:35:04Z) - SynGhost: Imperceptible and Universal Task-agnostic Backdoor Attack in Pre-trained Language Models [15.59613994912779]
事前学習は、下流タスクにおいて顕著なパフォーマンスを達成するために、事前訓練された言語モデル(PLM)をデプロイするために必要なフェーズであった。
バックドア攻撃は,タスク非依存のエントリポイントとして,そのようなフェーズを悪用することを示す。
PLMの非知覚的かつ普遍的なタスクに依存しないバックドア攻撃である$mathttSynGhost$を提示する。
論文 参考訳(メタデータ) (2024-02-29T08:20:49Z) - Federated Learning in the Presence of Adversarial Client Unavailability [16.201377650598516]
フェデレートラーニング(Federated Learning)は、生データを公開せずにコラボレーティブモデルを可能にする、分散機械学習フレームワークである。
多様なハードウェアソフトウェアに制限があるため、クライアントはサーバからの計算要求に対して常に利用できるとは限らない。
戦場のような厳しい環境では、敵は特定のクライアントを選択的に黙らせることができる。
論文 参考訳(メタデータ) (2023-05-31T15:57:07Z) - The Sample Complexity of Online Contract Design [120.9833763323407]
オンライン環境での隠れアクションの主エージェント問題について検討する。
各ラウンドにおいて、主席は、各結果に基づいてエージェントへの支払いを指定する契約を投稿する。
エージェントは、自身のユーティリティを最大化する戦略的な行動選択を行うが、プリンシパルによって直接観察できない。
論文 参考訳(メタデータ) (2022-11-10T17:59:42Z) - Approximate Function Evaluation via Multi-Armed Bandits [51.146684847667125]
既知の滑らかな関数 $f$ の値を未知の点 $boldsymbolmu in mathbbRn$ で推定する問題について検討する。
我々は、各座標の重要性に応じてサンプルを学習するインスタンス適応アルゴリズムを設計し、少なくとも1-delta$の確率で$epsilon$の正確な推定値である$f(boldsymbolmu)$を返す。
論文 参考訳(メタデータ) (2022-03-18T18:50:52Z) - Fast Gradient Non-sign Methods [67.56549792690706]
Fast Gradient Non-sign Method (FGNM) は一般的なルーチンであり、グラデーションベースの攻撃において従来の$sign$操作をシームレスに置き換えることができる。
我々の手法は、textbf27.5% と textbf9.5% でそれらを上回ります。
論文 参考訳(メタデータ) (2021-10-25T08:46:00Z) - What Happens after SGD Reaches Zero Loss? --A Mathematical Framework [35.31946061894308]
SGD(Gradient Descent)の暗黙のバイアスを理解することは、ディープラーニングにおける重要な課題の1つである。
本稿では、Katzenberger (1991) のアイデアを適応させることにより、そのような分析の一般的な枠組みを提供する。
1) a global analysis of the implicit bias for $eta-2$ steps, not to the local analysis of Blanc et al. (2020) that is only for $eta-1.6$ steps and (2) allowing any noise covariance。
論文 参考訳(メタデータ) (2021-10-13T17:50:46Z) - Learning to extrapolate using continued fractions: Predicting the
critical temperature of superconductor materials [5.905364646955811]
人工知能(AI)と機械学習(ML)の分野では、未知のターゲット関数 $y=f(mathbfx)$ の近似が共通の目的である。
トレーニングセットとして$S$を参照し、新しいインスタンス$mathbfx$に対して、このターゲット関数を効果的に近似できる低複雑さの数学的モデルを特定することを目的としている。
論文 参考訳(メタデータ) (2020-11-27T04:57:40Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。