論文の概要: Misalignment Bounty: Crowdsourcing AI Agent Misbehavior
- arxiv url: http://arxiv.org/abs/2510.19738v1
- Date: Wed, 22 Oct 2025 16:28:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.139896
- Title: Misalignment Bounty: Crowdsourcing AI Agent Misbehavior
- Title(参考訳): Misbehavior: クラウドソーシングAIエージェントのMisbehavior
- Authors: Rustem Turtayev, Natalia Fedorova, Oleg Serikov, Sergey Koldyba, Lev Avagyan, Dmitrii Volkov,
- Abstract要約: ミスサライメント・バウンティは意図しないあるいは安全でない目標を追求するエージェントの事例を収集した。
賞金は295件であり、そのうち9件が授与された。
本報告では,プログラムのモチベーションと評価基準について説明する。
- 参考スコア(独自算出の注目度): 0.16100415819628258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advanced AI systems sometimes act in ways that differ from human intent. To gather clear, reproducible examples, we ran the Misalignment Bounty: a crowdsourced project that collected cases of agents pursuing unintended or unsafe goals. The bounty received 295 submissions, of which nine were awarded. This report explains the program's motivation and evaluation criteria, and walks through the nine winning submissions step by step.
- Abstract(参考訳): 高度なAIシステムは、人間の意図と異なる方法で行動することがある。
Misalignment Bountyはクラウドソーシングプロジェクトであり、意図しない、あるいは安全でない目標を追求するエージェントの事例を収集します。
賞金は295件であり、そのうち9件が授与された。
本報告では,プログラムのモチベーションと評価基準を説明し,9つの入賞申請を段階的に実施する。
関連論文リスト
- The Current State of AI Bias Bounties: An Overview of Existing Programmes and Research [18.854429764918734]
現在のバイアス評価手法は、AIシステムによって影響を受けるコミュニティにはほとんど関与しない。
バグ報奨金に触発されて、報酬に基づく方法としてバイアス報奨が提案されている。
論文 参考訳(メタデータ) (2025-10-02T14:09:11Z) - Deceptive Sequential Decision-Making via Regularized Policy Optimization [54.38738815697299]
我々は,自律的なシステムをマルコフ決定プロセスとしてモデル化し,逆強化学習を用いて報酬関数を復元する。
本稿では,システム報酬に対する敵意を積極的に欺く政策合成問題に対する3つの規則化戦略を示す。
我々は,その最適かつ非知覚的価値の少なくとも97%の累積報酬を達成しつつ,反逆的,標的的,公平な詐欺が虚偽の信念に逆らうことを示している。
論文 参考訳(メタデータ) (2025-01-30T23:41:40Z) - Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。
本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。
ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文 参考訳(メタデータ) (2024-06-20T15:12:27Z) - Poisoning Retrieval Corpora by Injecting Adversarial Passages [79.14287273842878]
本稿では,悪意のあるユーザが少数の逆行を発生させるような,高密度検索システムに対する新たな攻撃を提案する。
これらの逆行路を大規模な検索コーパスに挿入すると、この攻撃はこれらのシステムを騙すのに非常に効果的であることを示す。
また、教師なしと教師なしの両方の最先端の高密度レトリバーをベンチマークし、比較する。
論文 参考訳(メタデータ) (2023-10-29T21:13:31Z) - Bound by the Bounty: Collaboratively Shaping Evaluation Processes for
Queer AI Harms [14.872177285434999]
我々は、クイアコミュニティに対して、彼らの立場と、監査プロセスへの欲求について尋ねる。
我々は,批判的,偏見的な報奨金に関する参加ワークショップを開催した。
我々は、報奨金のコミュニティ所有を提唱し、報奨金を参加プロセスで補完することで締めくくる。
論文 参考訳(メタデータ) (2023-07-15T00:49:45Z) - SHIELD: Thwarting Code Authorship Attribution [11.311401613087742]
著者の帰属はますます正確になり、匿名を希望するプログラマには深刻なプライバシー上のリスクが生じる。
対戦型コード例に対する異なるコードオーサシップ属性アプローチの堅牢性を検討するためにShiELDを導入する。
論文 参考訳(メタデータ) (2023-04-26T02:55:28Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。