論文の概要: Automating AI Failure Tracking: Semantic Association of Reports in AI Incident Database
- arxiv url: http://arxiv.org/abs/2507.23669v1
- Date: Thu, 31 Jul 2025 15:48:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:10.039374
- Title: Automating AI Failure Tracking: Semantic Association of Reports in AI Incident Database
- Title(参考訳): AI障害追跡の自動化: AIインシデントデータベースにおけるレポートのセマンティックアソシエーション
- Authors: Diego Russo, Gian Marco Orlando, Valerio La Gatta, Vincenzo Moscato,
- Abstract要約: 本稿では,既存のAIインシデントと新たなレポートの関連付けを自動化する検索ベースのフレームワークを提案する。
分析の結果,タイトルと記述を組み合わせることで,ランキングの精度が大幅に向上した。
私たちのアプローチは、AIIDのメンテナンスをサポートするためのスケーラブルで効率的なソリューションを提供します。
- 参考スコア(独自算出の注目度): 7.946359845249688
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Artificial Intelligence (AI) systems are transforming critical sectors such as healthcare, finance, and transportation, enhancing operational efficiency and decision-making processes. However, their deployment in high-stakes domains has exposed vulnerabilities that can result in significant societal harm. To systematically study and mitigate these risk, initiatives like the AI Incident Database (AIID) have emerged, cataloging over 3,000 real-world AI failure reports. Currently, associating a new report with the appropriate AI Incident relies on manual expert intervention, limiting scalability and delaying the identification of emerging failure patterns. To address this limitation, we propose a retrieval-based framework that automates the association of new reports with existing AI Incidents through semantic similarity modeling. We formalize the task as a ranking problem, where each report-comprising a title and a full textual description-is compared to previously documented AI Incidents based on embedding cosine similarity. Benchmarking traditional lexical methods, cross-encoder architectures, and transformer-based sentence embedding models, we find that the latter consistently achieve superior performance. Our analysis further shows that combining titles and descriptions yields substantial improvements in ranking accuracy compared to using titles alone. Moreover, retrieval performance remains stable across variations in description length, highlighting the robustness of the framework. Finally, we find that retrieval performance consistently improves as the training set expands. Our approach provides a scalable and efficient solution for supporting the maintenance of the AIID.
- Abstract(参考訳): 人工知能(AI)システムは、医療、金融、交通といった重要な分野を変革し、運用効率と意思決定プロセスを強化している。
しかし、彼らのハイテイクなドメインへの展開は、重大な社会的害をもたらす脆弱性を露呈している。
これらのリスクを体系的に研究し緩和するために、AIインシデントデータベース(AIID)のようなイニシアチブが出現し、3000以上の現実のAI障害レポートがカタログ化されている。
現在、適切なAIインシデントに新しいレポートを関連付けるには、手作業による専門家の介入、スケーラビリティの制限、出現する障害パターンの識別の遅延などに依存する。
この制限に対処するために、セマンティック類似性モデリングにより、新たなレポートと既存のAIインシデントとの関連を自動化する検索ベースのフレームワークを提案する。
我々は、そのタスクをランキング問題として定式化し、各レポートがタイトルと全文記述を記述し、コサインの類似性を埋め込んだAIインシデントと比較する。
従来の語彙法,クロスエンコーダアーキテクチャ,およびトランスフォーマーに基づく文埋め込みモデルをベンチマークした結果,後者は一貫して優れた性能を達成していることがわかった。
さらに、タイトルと記述を組み合わせることで、タイトルのみを使用する場合と比較してランキング精度が大幅に向上することを示す。
さらに、検索性能は記述長のバリエーションで安定しており、フレームワークの堅牢性を強調している。
最後に、トレーニングセットが拡大するにつれて、検索性能が一貫して改善されることが分かる。
私たちのアプローチは、AIIDのメンテナンスをサポートするためのスケーラブルで効率的なソリューションを提供します。
関連論文リスト
- Scalable, Symbiotic, AI and Non-AI Agent Based Parallel Discrete Event Simulations [0.0]
本稿では,複数のAIエージェントと非AIエージェントを組み合わせた並列離散イベントシミュレーション(PDES)手法を提案する。
我々は、4つの異なるドメインから4つの問題を解き、その結果をAIモデルだけで比較することで、我々のアプローチを評価する。
その結果,バニラモデルの精度が23%未満であるため,アプローチ全体の精度は68%であった。
論文 参考訳(メタデータ) (2025-05-28T17:50:01Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Agentic AI-Driven Technical Troubleshooting for Enterprise Systems: A Novel Weighted Retrieval-Augmented Generation Paradigm [0.0]
本稿では,企業の技術的トラブルシューティングに適したRAG(Weighted Retrieval-Augmented Generation)フレームワーク上に構築されたエージェントAIソリューションを提案する。
製品マニュアル、内部知識ベース、FAQ、トラブルシューティングガイドなどの検索ソースを動的に重み付けすることで、最も関連性の高いデータを優先順位付けする。
大規模エンタープライズデータセットに関する予備評価では、トラブルシューティングの精度を改善し、解決時間を短縮し、さまざまな技術的課題に適応する上で、フレームワークの有効性が示されている。
論文 参考訳(メタデータ) (2024-12-16T17:32:38Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Towards a Responsible AI Metrics Catalogue: A Collection of Metrics for
AI Accountability [28.67753149592534]
本研究は,包括的メトリクスカタログへの取り組みを導入することで,説明責任のギャップを埋めるものである。
我々のカタログは、手続き的整合性を支えるプロセスメトリクス、必要なツールやフレームワークを提供するリソースメトリクス、AIシステムのアウトプットを反映する製品メトリクスを記述しています。
論文 参考訳(メタデータ) (2023-11-22T04:43:16Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。