Fugu-MT 論文翻訳(概要): A Semi-supervised Sensing Rate Learning based CMAB Scheme to Combat COVID-19 by Trustful Data Collection in the Crowd

論文の概要: A Semi-supervised Sensing Rate Learning based CMAB Scheme to Combat COVID-19 by Trustful Data Collection in the Crowd

arxiv url: http://arxiv.org/abs/2301.08563v2
Date: Thu, 22 Jun 2023 12:00:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-23 17:40:29.656659
Title: A Semi-supervised Sensing Rate Learning based CMAB Scheme to Combat COVID-19 by Trustful Data Collection in the Crowd
Title（参考訳）: 半教師付きセンシングレート学習による集団内の信頼データ収集によるcovid-19対策cmab
Authors: Jianheng Tang, Kejia Fan, Wenxuan Xie, Luomin Zeng, Feijiang Han, Guosheng Huang, Tian Wang, Anfeng Liu, Shaobo Zhang
Abstract要約: 多くの戦略的労働者は、自分のセンシングタスクを誠実に実行せず、プラットフォームに偽のデータを報告します。本稿では,セミスーパービジョンをベースとした Combinatorial Multi-Armed Bandit 逆オークションというインセンティブ機構を提案する。我々は、SCMABAが真理性と個人的合理性を達成することを理論的に証明する。
参考スコア（独自算出の注目度）: 13.629569862729811
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recruitment of trustworthy and high-quality workers is an important research issue for MCS. Previous studies either assume that the qualities of workers are known in advance, or assume that the platform knows the qualities of workers once it receives their collected data. In reality, to reduce costs and thus maximize revenue, many strategic workers do not perform their sensing tasks honestly and report fake data to the platform, which is called False data attacks. And it is very hard for the platform to evaluate the authenticity of the received data. In this paper, an incentive mechanism named Semi-supervision based Combinatorial Multi-Armed Bandit reverse Auction (SCMABA) is proposed to solve the recruitment problem of multiple unknown and strategic workers in MCS. First, we model the worker recruitment as a multi-armed bandit reverse auction problem and design an UCB-based algorithm to separate the exploration and exploitation, regarding the Sensing Rates (SRs) of recruited workers as the gain of the bandit. Next, a Semi-supervised Sensing Rate Learning (SSRL) approach is proposed to quickly and accurately obtain the workers' SRs, which consists of two phases, supervision and self-supervision. Last, SCMABA is designed organically combining the SRs acquisition mechanism with multi-armed bandit reverse auction, where supervised SR learning is used in the exploration, and the self-supervised one is used in the exploitation. We theoretically prove that our SCMABA achieves truthfulness and individual rationality and exhibits outstanding performances of the SCMABA mechanism through in-depth simulations of real-world data traces.
Abstract（参考訳）: 信頼性と質の高い労働者の採用は、MCSにとって重要な研究課題である。以前の研究では、労働者の質が事前に知られていると仮定するか、収集されたデータを受け取ったらそのプラットフォームが労働者の質を知っていると仮定する。実際、コストを削減し、収益を最大化するために、多くの戦略的労働者は、自分のセンシングタスクを誠実に実行せず、偽のデータをプラットフォームに報告する。そして、プラットフォームが受信したデータの真正性を評価することは極めて困難である。本稿では、MCSにおける複数の未知の戦略的労働者の求人問題を解決するために、セミスーパービジョンベースの Combinatorial Multi-Armed Bandit reverse Auction (SCMABA) というインセンティブメカニズムを提案する。まず,マルチアームのバンディット逆オークション問題として労働者採用をモデル化し,探索と搾取を分離するucbベースのアルゴリズムをデザインし,バンディットの利得として採用した労働者のセンシングレート(srs)について検討した。次に,SSRL(Semi-supervised Sensing Rate Learning)アプローチを提案し,労働者のSRを迅速かつ正確に取得する。最後に, SCMABAは, SRs獲得機構とマルチアーム・バンドイット・リバース・オークションを有機的に組み合わせて設計し, 探索には教師付きSR学習, 搾取には自己教師付きSR学習を用いる。理論上,我々のSCMABAは真理性と個人合理性を達成し,実世界のデータトレースの詳細なシミュレーションを通じて,SCMABA機構の優れた性能を示す。

関連論文リスト

AgentIR: Reasoning-Aware Retrieval for Deep Research Agents [76.29382561831105]
ディープリサーチエージェントは、各検索の前に明示的な自然言語推論を生成する。 Reasoning-Aware Retrievalは、クエリと一緒にエージェントの推論トレースを埋め込む。 DR-Synthは、標準的なQAデータセットからDeep Researchレトリバーのトレーニングデータを生成する。 AgentIR-4Bは、オープンウェイトエージェントであるTongyi-DeepResearchで68%の精度を達成する。
論文参考訳（メタデータ） (2026-03-04T18:47:26Z)
Multimodal Reinforcement Learning with Agentic Verifier for AI Agents [131.46008226323423]
Argosは、エージェントタスクの推論モデルをトレーニングするための、原則化されたマルチモーダル報酬エージェントである。エージェント検証をSFTデータとRLトレーニングの両方で活用することにより、我々のモデルは最先端の結果を得ることができる。
論文参考訳（メタデータ） (2025-12-03T04:42:47Z)
CORTEX: Collaborative LLM Agents for High-Stakes Alert Triage [10.088447487211893]
SOC(Security Operations Centers)は、毎日何万ものアラートに圧倒されている。この過負荷は警告の疲労を引き起こし、見過ごされた脅威やアナリストのバーンアウトにつながる。警告トリアージのためのマルチエージェントLLMアーキテクチャであるCORTEXを提案する。
論文参考訳（メタデータ） (2025-09-30T22:09:31Z)
WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning [73.91893534088798]
WebSailorは、この重要な機能を組み込むように設計された、完全なポストトレーニング方法論である。我々のアプローチは、構造化サンプリングと情報難読化によって、新しい、不確実なタスクを生成することである。 WebSailorは複雑な情報検索タスクにおいて、すべてのオープンソースエージェントを著しく上回る。
論文参考訳（メタデータ） (2025-09-16T17:57:03Z)
WebSailor: Navigating Super-human Reasoning for Web Agent [72.5231321118689]
WebSailorは、この重要な機能を組み込むように設計された、完全なポストトレーニング方法論である。我々のアプローチは、構造化サンプリングと情報難読化によって、新しい、不確実なタスクを生成することである。 WebSailorは複雑な情報検索タスクにおいて、すべてのオープンソースエージェントを著しく上回っている。
論文参考訳（メタデータ） (2025-07-03T12:59:07Z)
RRO: LLM Agent Optimization Through Rising Reward Trajectories [52.579992804584464]
大規模言語モデル (LLM) は様々なタスクにおいて異常な性能を示した。実際には、エージェントは特定の重要なステップの結果に敏感で、タスクを失敗する可能性がある。この問題を軽減するために,Reward Rising Optimization (RRO)を提案する。
論文参考訳（メタデータ） (2025-05-27T05:27:54Z)
LeakAgent: RL-based Red-teaming Agent for LLM Privacy Leakage [78.33839735526769]
LeakAgentは、プライバシー漏洩のための新しいブラックボックスレッドチームフレームワークである。我々のフレームワークは、敵のプロンプトを生成するための攻撃エージェントとして強化学習を通じてオープンソースのLLMを訓練する。我々は,LeakAgentが既存のルールベースのデータ抽出手法と,システムリーク時の自動手法を著しく上回っていることを示す。
論文参考訳（メタデータ） (2024-12-07T20:09:01Z)
Analyzing Probabilistic Methods for Evaluating Agent Capabilities [0.6990493129893112]
本稿では,AIエージェントが与えられたタスクを完了した確率をよりよく推定することを目的とした2つの手法を提案する。マイルストーン法はタスクをサブタスクに分解し、全体の成功率推定を改善する。専門家のベスト・オブ・N法は、モデルの独立したパフォーマンスのプロキシとして人間のガイダンスを活用する。
論文参考訳（メタデータ） (2024-09-24T14:35:20Z)
Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文参考訳（メタデータ） (2024-09-01T13:14:41Z)
Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。 MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文参考訳（メタデータ） (2023-10-18T11:36:42Z)
Pure Exploration in Asynchronous Federated Bandits [57.02106627533004]
マルチアームバンディットとリニアバンディットのフェデレートされた純粋な探索問題について検討し、M$エージェントが中央サーバとの通信を通じて最適なアームを協調的に識別する方法について検討した。信頼度を固定した純粋探索のための非同期マルチアームバンディットおよび線形バンディットアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-17T06:04:00Z)
Robustness Testing for Multi-Agent Reinforcement Learning: State Perturbations on Critical Agents [2.5204420653245245]
MARL(Multi-Agent Reinforcement Learning)は、スマート交通や無人航空機など、多くの分野に広く応用されている。本研究は,MARLのための新しいロバストネステストフレームワークを提案する。
論文参考訳（メタデータ） (2023-06-09T02:26:28Z)
MA2CL:Masked Attentive Contrastive Learning for Multi-Agent Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。 MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文参考訳（メタデータ） (2023-06-03T05:32:19Z)
Taming Multi-Agent Reinforcement Learning with Estimator Variance Reduction [12.94372063457462]
分散実行(CT-DE)による集中トレーニングは、多くの主要なマルチエージェント強化学習(MARL)アルゴリズムの基礎となっている。特定の状態における共同行動の単一のサンプルから学ぶことに依存しているため、これは重大な欠点に悩まされる。本稿では,アクター・クリティカルなMARL法に対応する拡張ツールを提案する。
論文参考訳（メタデータ） (2022-09-02T13:44:00Z)
Federated Multi-Armed Bandits Under Byzantine Attacks [8.974667651758095]
FMAB(Federated Multi-armed Bandits)は、学習者がMABゲームをし、集約されたフィードバックをサーバに伝達し、グローバルな最適なアームを学ぶための新興フレームワークである。本研究では,学習プロセスを脅かす偽モデル更新を送信できるビザンティンクライアントの存在下でのFMAB問題について検討する。我々は,ビザンティンの顧客に対応するために,中央値平均オンラインアルゴリズムであるFed-MoM-UCBを提案する。
論文参考訳（メタデータ） (2022-05-09T09:06:42Z)
Relative Distributed Formation and Obstacle Avoidance with Multi-agent Reinforcement Learning [20.401609420707867]
マルチエージェント強化学習(MARL)に基づく分散生成・障害物回避手法を提案する。提案手法は, 障害物回避における生成誤差, 生成収束率, オンパー成功率に関して, ベースラインと比較して高い性能を実現する。
論文参考訳（メタデータ） (2021-11-14T13:02:45Z)
COVI-AgentSim: an Agent-based Model for Evaluating Methods of Digital Contact Tracing [68.68882022019272]
COVI-AgentSimは、ウイルス学、病気の進行、社会的接触ネットワーク、移動パターンに基づくエージェントベースのコンパートメンタルシミュレータである。 1)バイナリテスト結果に基づいてバイナリレコメンデーションを割り当てる標準バイナリコンタクトトレース (BCT) と,2) 多様な特徴に基づいてグレードレベルのレコメンデーションを割り当てる特徴ベースコンタクトトレース (FCT) のルールベースの手法である。
論文参考訳（メタデータ） (2020-10-30T00:47:01Z)
Scalable Multi-Agent Inverse Reinforcement Learning via Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-02-24T20:30:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。