Fugu-MT 論文翻訳(概要): Reinforcement learning autonomously identifying the source of errors for agents in a group mission

論文の概要: Reinforcement learning autonomously identifying the source of errors for agents in a group mission

arxiv url: http://arxiv.org/abs/2107.09232v1
Date: Tue, 20 Jul 2021 02:40:19 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-21 15:06:21.573068
Title: Reinforcement learning autonomously identifying the source of errors for agents in a group mission
Title（参考訳）: グループミッションにおけるエージェントのエラー源を自律的に特定する強化学習
Authors: Keishu Utimula, Ken-taro Hayaschi, Kousuke Nakano, Kenta Hongo, Ryo Maezono
Abstract要約: アクチュエータとセンサを区別するために,Swarm戦略を生成する方法を示す。本研究では,スパース値関数の区別を実現するため,強化学習手法を適用した。動作によってアクチュエータエラーのあるエージェントが認識されると、エージェントは、与えられたミッションを達成するために、故障しているエージェントを支援したいように振る舞う。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: When agents are swarmed to carry out a mission, there is often a sudden failure of some of the agents observed from the command base. It is generally difficult to distinguish whether the failure is caused by actuators (hypothesis, $h_a$) or sensors (hypothesis, $h_s$) solely by the communication between the command base and the concerning agent. By making a collision to the agent by another, we would be able to distinguish which hypothesis is likely: For $h_a$, we expect to detect corresponding displacements while for $h_a$ we do not. Such swarm strategies to grasp the situation are preferably to be generated autonomously by artificial intelligence (AI). Preferable actions ($e.g.$, the collision) for the distinction would be those maximizing the difference between the expected behaviors for each hypothesis, as a value function. Such actions exist, however, only very sparsely in the whole possibilities, for which the conventional search based on gradient methods does not make sense. Instead, we have successfully applied the reinforcement learning technique, achieving the maximization of such a sparse value function. The machine learning actually concluded autonomously the colliding action to distinguish the hypothesises. Getting recognized an agent with actuator error by the action, the agents behave as if other ones want to assist the malfunctioning one to achieve a given mission.
Abstract（参考訳）: エージェントがミッションを実行するために群がっているとき、しばしばコマンドベースから観察されたエージェントのいくつかが突然失敗する。一般に、故障はアクチュエータ(h_a$)またはセンサー(h_s$)によって引き起こされるか、コマンドベースと関連するエージェントとの通信のみによって引き起こされるかの区別が困難である。エージェントを別のエージェントで衝突させることで、どの仮説が想定されるかを区別することができる: $h_a$ の場合、対応する変位を検出できるが、 $h_a$ の場合、そうはならない。このような状況を把握するための群集戦略は、人工知能(AI)によって自律的に生成されることが好ましい。区別のための好ましいアクション(例えば、衝突)は、各仮説に対する期待される振る舞いの違いを値関数として最大化するものである。しかし、そのような行動は全可能性においてごくわずかしか存在せず、従来の勾配法に基づく探索は意味をなさない。代わりに、そのようなスパース値関数の最大化を達成し、強化学習技術の適用に成功した。機械学習は、仮説を識別するための衝突行動を自律的に結論づけました。動作によってアクチュエータエラーのあるエージェントが認識されると、エージェントは、与えられたミッションを達成するために、故障しているエージェントを支援したいように振る舞う。

関連論文リスト

Formal Analysis of AGI Decision-Theoretic Models and the Confrontation Question [0.0]
AGI(Artificial General Intelligence, 人工知能)は、対立する問題に直面しているかもしれない。我々はこれをマルコフ決定プロセスで定式化し、人間によるシャットダウンイベントを開催する。ほぼすべての報酬関数に対して、不整合エージェントがシャットダウンを避けるインセンティブを持っていることを示す。
論文参考訳（メタデータ） (2026-01-04T08:02:00Z)
Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [55.044159987218436]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。 LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文参考訳（メタデータ） (2025-05-23T08:23:36Z)
FLARE: Robot Learning with Implicit World Modeling [87.81846091038676]
$textbfFLARE$は、予測潜在世界モデリングをロボットポリシー学習に統合する。 $textbfFLARE$は最先端のパフォーマンスを実現し、これまでのポリシー学習のベースラインを最大26%上回っている。この結果は、暗黙の世界モデリングと高周波ロボット制御を組み合わせた汎用的でスケーラブルなアプローチとして$textbfFLARE$を確立した。
論文参考訳（メタデータ） (2025-05-21T15:33:27Z)
Symmetry-Breaking Descent for Invariant Cost Functionals [0.0]
我々は,大域対称性群$GサブセットのMathrmDiff(M)$の下でコストが不変である場合,Sobolev-classシグナル$S$上で定義されるタスクコスト関数$W(S)$の削減問題を考察する。入力信号の明示的対称性を破る変形を構成するために,対称性構造を利用する変分法を提案する。
論文参考訳（メタデータ） (2025-05-19T15:06:31Z)
Cracking the Code of Action: a Generative Approach to Affordances for Reinforcement Learning [33.790048240113165]
本研究では,専門家の行動に限定的あるいは全くアクセスできない低データ体制について考察する。我々は、Generative Affordances$(textbf$textttCoGA$)$として$textbfCodeを提案する。エージェントが考慮しなければならないアクションの数を大幅に削減することで、MiniWob++ベンチマークで幅広いタスクを実演する。
論文参考訳（メタデータ） (2025-04-24T06:20:08Z)
Computational-Statistical Tradeoffs at the Next-Token Prediction Barrier: Autoregressive and Imitation Learning under Misspecification [50.717692060500696]
対数損失を伴う次のトーケン予測は自己回帰シーケンスモデリングの基盤となる。次トーケン予測は、適度な誤差増幅を表す$C=tilde O(H)$を達成するために堅牢にすることができる。 C=e(log H)1-Omega(1)$。
論文参考訳（メタデータ） (2025-02-18T02:52:00Z)
Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency [52.60557300927007]
離散部分モジュラー問題を連続的に最適化するために,$textbfMA-OSMA$アルゴリズムを提案する。また、一様分布を混合することによりKLの発散を効果的に活用する、プロジェクションフリーな$textbfMA-OSEA$アルゴリズムも導入する。我々のアルゴリズムは最先端OSGアルゴリズムによって提供される$(frac11+c)$-approximationを大幅に改善する。
論文参考訳（メタデータ） (2025-02-07T15:57:56Z)
Conditional Mutual Information Based Diffusion Posterior Sampling for Solving Inverse Problems [3.866047645663101]
コンピュータビジョンでは、インペイント、デブロアリング、超解像といったタスクは逆問題として一般的に定式化される。近年, 拡散モデル (DM) が, 雑音の線形逆問題に対処するための有望なアプローチとして出現している。本稿では,逆問題の解法におけるDMの有効性を改善するための情報理論的手法を提案する。
論文参考訳（メタデータ） (2025-01-06T09:45:26Z)
IT$^3$: Idempotent Test-Time Training [95.78053599609044]
本稿では,分散シフトの課題に対処する新しいアプローチであるIdempotent Test-Time Training (IT$3$)を紹介する。 IT$3$は、イデオロジェンスの普遍性に基づいている。画像分類の劣化など,様々なタスクにまたがるアプローチの汎用性を実証する。
論文参考訳（メタデータ） (2024-10-05T15:39:51Z)
Any Target Can be Offense: Adversarial Example Generation via Generalized Latent Infection [83.72430401516674]
GAKerは任意のターゲットクラスに対して逆例を構築することができる。本手法は,未知のクラスに対する攻撃成功率を約14.13%で達成する。
論文参考訳（メタデータ） (2024-07-17T03:24:09Z)
The Selective G-Bispectrum and its Inversion: Applications to G-Invariant Networks [3.8311785959108637]
我々は,$G$-Bispectrumをテキスト選択型$G$-Bispectrumに還元できることを示す。ニューラルネットワークへの統合によって、従来のアプローチと比較して精度と堅牢性が向上することを示す。
論文参考訳（メタデータ） (2024-07-10T13:35:04Z)
SynGhost: Imperceptible and Universal Task-agnostic Backdoor Attack in Pre-trained Language Models [15.59613994912779]
事前学習は、下流タスクにおいて顕著なパフォーマンスを達成するために、事前訓練された言語モデル(PLM)をデプロイするために必要なフェーズであった。バックドア攻撃は,タスク非依存のエントリポイントとして,そのようなフェーズを悪用することを示す。 PLMの非知覚的かつ普遍的なタスクに依存しないバックドア攻撃である$mathttSynGhost$を提示する。
論文参考訳（メタデータ） (2024-02-29T08:20:49Z)
Federated Learning in the Presence of Adversarial Client Unavailability [16.201377650598516]
フェデレートラーニング(Federated Learning)は、生データを公開せずにコラボレーティブモデルを可能にする、分散機械学習フレームワークである。多様なハードウェアソフトウェアに制限があるため、クライアントはサーバからの計算要求に対して常に利用できるとは限らない。戦場のような厳しい環境では、敵は特定のクライアントを選択的に黙らせることができる。
論文参考訳（メタデータ） (2023-05-31T15:57:07Z)
The Sample Complexity of Online Contract Design [120.9833763323407]
オンライン環境での隠れアクションの主エージェント問題について検討する。各ラウンドにおいて、主席は、各結果に基づいてエージェントへの支払いを指定する契約を投稿する。エージェントは、自身のユーティリティを最大化する戦略的な行動選択を行うが、プリンシパルによって直接観察できない。
論文参考訳（メタデータ） (2022-11-10T17:59:42Z)
Approximate Function Evaluation via Multi-Armed Bandits [51.146684847667125]
既知の滑らかな関数 $f$ の値を未知の点 $boldsymbolmu in mathbbRn$ で推定する問題について検討する。我々は、各座標の重要性に応じてサンプルを学習するインスタンス適応アルゴリズムを設計し、少なくとも1-delta$の確率で$epsilon$の正確な推定値である$f(boldsymbolmu)$を返す。
論文参考訳（メタデータ） (2022-03-18T18:50:52Z)
Fast Gradient Non-sign Methods [67.56549792690706]
Fast Gradient Non-sign Method (FGNM) は一般的なルーチンであり、グラデーションベースの攻撃において従来の$sign$操作をシームレスに置き換えることができる。我々の手法は、textbf27.5% と textbf9.5% でそれらを上回ります。
論文参考訳（メタデータ） (2021-10-25T08:46:00Z)
What Happens after SGD Reaches Zero Loss? --A Mathematical Framework [35.31946061894308]
SGD(Gradient Descent)の暗黙のバイアスを理解することは、ディープラーニングにおける重要な課題の1つである。本稿では、Katzenberger (1991) のアイデアを適応させることにより、そのような分析の一般的な枠組みを提供する。 1) a global analysis of the implicit bias for $eta-2$ steps, not to the local analysis of Blanc et al. (2020) that is only for $eta-1.6$ steps and (2) allowing any noise covariance。
論文参考訳（メタデータ） (2021-10-13T17:50:46Z)
Learning to extrapolate using continued fractions: Predicting the critical temperature of superconductor materials [5.905364646955811]
人工知能(AI)と機械学習(ML)の分野では、未知のターゲット関数 $y=f(mathbfx)$ の近似が共通の目的である。トレーニングセットとして$S$を参照し、新しいインスタンス$mathbfx$に対して、このターゲット関数を効果的に近似できる低複雑さの数学的モデルを特定することを目的としている。
論文参考訳（メタデータ） (2020-11-27T04:57:40Z)
Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。 ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。 ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文参考訳（メタデータ） (2020-05-29T07:20:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。