論文の概要: YOLOv10 with Kolmogorov-Arnold networks and vision-language foundation models for interpretable object detection and trustworthy multimodal AI in computer vision perception
- arxiv url: http://arxiv.org/abs/2603.23037v1
- Date: Tue, 24 Mar 2026 10:13:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.429657
- Title: YOLOv10 with Kolmogorov-Arnold networks and vision-language foundation models for interpretable object detection and trustworthy multimodal AI in computer vision perception
- Title(参考訳): YOLOv10 with Kolmogorov-Arnold network and vision- language foundation model for interpretable object detection and Trustworthy multimodal AI in computer vision perception (特集:人工知能)
- Authors: Marios Impraimakis, Daniel Vazquez, Feiyu Zhou,
- Abstract要約: Kolmogorov-Arnoldネットワークは、You Only Look Once (Yolov10)検出の信頼性をモデル化するために、解釈可能なポストホックサロゲートとして使用される。
コモン・オブジェクト・イン・コンテクスト(COCO)とバス大学キャンパスの画像の両方の実験では、このフレームワークが信頼度の低い予測を正確に識別していることが示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The interpretable object detection capabilities of a novel Kolmogorov-Arnold network framework are examined here. The approach refers to a key limitation in computer vision for autonomous vehicles perception, and beyond. These systems offer limited transparency regarding the reliability of their confidence scores in visually degraded or ambiguous scenes. To address this limitation, a Kolmogorov-Arnold network is employed as an interpretable post-hoc surrogate to model the trustworthiness of the You Only Look Once (Yolov10) detections using seven geometric and semantic features. The additive spline-based structure of the Kolmogorov-Arnold network enables direct visualisation of each feature's influence. This produces smooth and transparent functional mappings that reveal when the model's confidence is well supported and when it is unreliable. Experiments on both Common Objects in Context (COCO), and images from the University of Bath campus demonstrate that the framework accurately identifies low-trust predictions under blur, occlusion, or low texture. This provides actionable insights for filtering, review, or downstream risk mitigation. Furthermore, a bootstrapped language-image (BLIP) foundation model generates descriptive captions of each scene. This tool enables a lightweight multimodal interface without affecting the interpretability layer. The resulting system delivers interpretable object detection with trustworthy confidence estimates. It offers a powerful tool for transparent and practical perception component for autonomous and multimodal artificial intelligence applications.
- Abstract(参考訳): 本稿では,新しいKolmogorov-Arnoldネットワークフレームワークの解釈対象検出機能について述べる。
このアプローチは、自動運転車の認識などのためのコンピュータビジョンにおける重要な制限を指す。
これらのシステムは、視覚的に劣化または曖昧なシーンにおける信頼度スコアの信頼性に関する限られた透明性を提供する。
この制限に対処するために、Kolmogorov-Arnoldネットワークは、7つの幾何学的および意味的特徴を用いたYou Only Look Once (Yolov10)検出の信頼性をモデル化するための解釈可能なポストホックサロゲートとして使用される。
Kolmogorov-Arnoldネットワークの付加的なスプラインベース構造は、各特徴の影響を直接可視化することができる。
これによりスムーズで透過的な機能マッピングが生成され、モデルの信頼性が十分にサポートされ、信頼性が低いことが分かる。
コモン・オブジェクト・イン・コンテクスト(COCO)とバス大学キャンパスの画像の両方の実験により、このフレームワークはぼやけ、隠蔽、または低テクスチャ下での低信頼の予測を正確に識別することを示した。
これにより、フィルタリング、レビュー、あるいは下流のリスク軽減のための実行可能な洞察が得られる。
さらに、ブートストラップされた言語イメージ(BLIP)基盤モデルが各シーンの記述キャプションを生成する。
このツールは、解釈可能性層に影響を与えることなく、軽量なマルチモーダルインタフェースを実現する。
得られたシステムは、信頼できる信頼度推定を伴う解釈可能なオブジェクト検出を提供する。
自律型およびマルチモーダル人工知能アプリケーションのための透過的で実用的な知覚コンポーネントのための強力なツールを提供する。
関連論文リスト
- Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks [0.0]
SALVEは機械的解釈可能性とモデル編集を橋渡しするフレームワークである。
私たちは、監督なしでスパースでモデルネイティブな機能ベースを学びます。
Grad-FAM(英語版)によりこれらの特徴を検証した。
論文 参考訳(メタデータ) (2025-12-17T20:06:03Z) - From Prediction to Explanation: Multimodal, Explainable, and Interactive Deepfake Detection Framework for Non-Expert Users [21.627851460651968]
DF-P2E(Deepfake: Prediction to Explanation)は、視覚的、意味的、物語的な説明層を統合して、ディープフェイク検出を解釈し、アクセス可能にする新しいフレームワークである。
現在最も多様なディープフェイクデータセットであるDF40ベンチマークで、フレームワークをインスタンス化し、評価しています。
実験により,Grad-CAMアクティベーションに適合した高品質な説明を提供しながら,競合検出性能を実証した。
論文 参考訳(メタデータ) (2025-08-11T03:55:47Z) - LLMs Are Not Yet Ready for Deepfake Image Detection [8.364956401923108]
視覚言語モデル(VLM)は、様々な領域にまたがる有望なツールとして登場した。
本研究は, ファスワップ, 再現, 合成生成の3つの主要なディープフェイクタイプに焦点を当てた。
解析の結果、VLMはコヒーレントな説明を生成でき、表面レベルの異常を検出できるが、スタンドアロン検出システムとしてはまだ信頼できないことが示唆された。
論文 参考訳(メタデータ) (2025-06-12T08:27:24Z) - IVY-FAKE: A Unified Explainable Framework and Benchmark for Image and Video AIGC Detection [24.67072921674199]
説明可能なマルチモーダルAIGC検出のための,新規で統一された大規模データセットであるIVY-FAKEを紹介する。
Ivy Explainable Detector (IVY-XDETECTOR)を提案する。
我々の統合視覚言語モデルは、複数の画像およびビデオ検出ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-01T12:20:22Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Manipulating Feature Visualizations with Gradient Slingshots [53.94925202421929]
特徴可視化(FV)は、ディープニューラルネットワーク(DNN)で学んだ概念を解釈するための広く使われている手法である。
本稿では,モデルアーキテクチャを変更したり,性能を著しく劣化させたりすることなくFVの操作を可能にする新しい手法,Gradient Slingshotsを提案する。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Learning Invariant World State Representations with Predictive Coding [1.8963850600275547]
我々は,新しい予測型コーディングベースアーキテクチャと,完全教師付き・自己教師型学習手法を開発した。
我々は,新しい合成データセットを用いて,モデルのロバスト性を評価する。
論文 参考訳(メタデータ) (2022-07-06T21:08:30Z) - Exploiting Multi-Object Relationships for Detecting Adversarial Attacks
in Complex Scenes [51.65308857232767]
ディープニューラルネットワーク(DNN)をデプロイするビジョンシステムは、敵の例に弱いことが知られている。
近年の研究では、入力データの固有成分のチェックは、敵攻撃を検出するための有望な方法であることが示された。
言語モデルを用いてコンテキスト整合性チェックを行う新しい手法を開発した。
論文 参考訳(メタデータ) (2021-08-19T00:52:10Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。